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Apresentação 


O objetivo do livro Estatística Aplicada à Administração e Economia, 2* edição, é oferecer aos alunos, prin- 
cipalmente aqueles das áreas de Administração e Economia, a introdução conceitual do campo da Estatís- 
tica e suas muitas aplicações. O texto é orientado e foi escrito tendo em mente as necessidades do aluno 
não-matemático; o único pré-requisito matemático exigido é o conhecimento de álgebra. 

As aplicações de análise de dados e metodologia estatística são parte integrante da organização e apre- 
sentação do conteúdo. A discussão e o desenvolvimento de cada técnica são apresentados num conjunto 
aplicativo, com os resultados estatísticos fornecendo critérios para decisões e soluções de problemas. 

Apesar de o livro ser orientado para aplicações, tivemos o cuidado de proporcionar um desenvolvimen- 
to metodológico correto e usar a notação geralmente aceita para o tópico em discussão. Assim, os alunos 
descobrirão que o texto oferece boa preparação para o estudo de material estatístico mais avançado. Uma 
bibliografia revisada e atualizada para orientar estudos adicionais foi incluída como apêndice. 


Mudanças Nesta Edição 


Agradecemos a aceitação e resposta positiva às edições anteriores de Estatística Aplicada à Administração 
€ Economia. Conseqüentemente, ao introduzir modificações nesta nova edição, mantivemos o estilo da 
apresentação e legibilidade daquelas edições. As mudanças significativas nesta edição estão resumidas a 
seguir. 


Revisões do Conteúdo 


A seguinte lista resume as revisões de conteúdo selecionadas para esta edição. 


* Estimação por intervalo: Nas edições anteriores, seguimos a abordagem de amostra grande/amostra 
pequena para estimação por intervalo da média da população no Capítulo 8. Na nova edição, apresen- 
tamos a estimação por intervalo usando os paradigmas с conhecido e o desconhecido. A distribuição 
normal padrão é empregada em todos os casos em que o desvio padrão da população possa ser conhe- 
cido. A distribuição t é usada em todos os casos em que o desvio padrão da população é estimado pelo 
desvio padrão da amostra. Essa abordagem simplifica a metodologia para o aluno e é consistente com 
os procedimentos baseados em computador oferecidos pelo Minitab e pelo Excel. No caso de g des- 
conhecido, a nova abordagem fornece resultados relativamente melhores que a aproximação anterior 
da amostra grande. Uma tabela da distribuição г com até 100 graus de liberdade foi incluída sob a 
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designação de Tabela 2 no Apéndice B. Essa mudança leva aos testes de hipóteses sobre a média da 
população no Capítulo 9 e a inferências estatísticas sobre duas médias da população no Capítulo 10. 


* Testes de hipóteses usando valores p: Outra mudança na edição nova é a ênfase no uso de valores p 
para teste de hipóteses. Com a utilização de pacotes de programas estatísticos para análise de dados 
cada vez mais difundido, os valores p são claramente preferidos à abordagem tradicional de teste esta- 
tístico e região de rejeição. Como conseqüéncia, atualmente se usam valores p como o método princi- 
pal para aplicações de teste de hipóteses nos Capítulos 9 a 13. 


* Procedimento novo para inferências de duas amostras: Oferecemos nova metodologia para inferên- 
cias sobre médias de duas populações quando os desvios padrão da população forem desconhecidos. 
A metodologia é baseada na distribuição t e é bem mais genérica porque pode ser aplicada, sendo ou 
não iguais às variâncias da população. O aluno não precisa mais considerar a hipótese de igualdade da 
variância da população e efetuar o cálculo da variância agrupada. 


* Estatística descritiva: Foram adicionadas seções novas nos Capítulos 2 e 3 sobre o formato das dis- 
tribuicóes. A assimetria foi introduzida como medida importante do formato da distribuição. Nos capí- 
tulos finais mencionamos agora a necessidade de tamanhos de amostras maiores para estimação por 
intervalo e teste de hipóteses nas aplicações que envolvem população assimétrica. O material sobre 
tabulação cruzada foi ampliado para incluir mais discussão acerca de distribuições de porcentagens. O 
paradoxo de Simpson é usado para indicar uma fonte de conclusões potencialmente errôneas ao traba- 
lhar com tabulações cruzadas. 


* Distribuições de probabilidade: Foi acrescentada uma discussão sobre média, variância e desvio 
padrão para as distribuições de Poisson e hipergeométrica no Capítulo 5 e para a distribuição exponen- 
cial no Capítulo 6. Esse capítulo também tem uma nova seção sobre aproximação normal da probabi- 
lidade binomial. 


Exemplos e Exercícios Novos Baseados em Dados Reais 


Acrescentamos aproximadamente 200 exemplos e exercícios novos baseados em dados reais e fontes de 
referências recentes de informações estatísticas. Usamos o Wall Street Journal, o USA Today, a Fortune, a 
Barron's e uma variedade de outras fontes, além de extrairmos dados de estudos reais para desenvolver 
explicações e criar exercícios que demonstrem os muitos usos da estatística aplicada em administração e 
economia. Acreditamos que o emprego de dados reais ajuda a gerar no aluno maior interesse no material 
e Ihe possibilita aprender tanto sobre a metodologia estatística como sobre sua aplicação. Esta edição con- 
tém mais de 300 exemplos e exercícios baseados em dados reais. 


Novos Estudos de Caso 


Adicionamos quatro novos estudos de caso nesta edição, chegando ao total de 21. Os estudos de caso apa- 
recem nos capítulos sobre estatística descritiva, distribuição de probabilidade e regressão. Esses estudos 
de caso darão aos alunos a oportunidade de analisar conjuntos de dados relativamente maiores e preparar 
relatórios gerenciais baseados nos resultados da análise. 


Novas Seções Estatística na Prática 


Cada capítulo começa com uma seção chamada “Estatística na Prática”, que descreve uma aplicação sobre 
a metodologia estatística a ser abordada. Os exemplos dessa seção foram fornecidos por profissionais de 
empresas como Colgate-Palmolive, Citibank, Procter & Gamble, Monsanto e outras. Esta edição inclui 
dois novos exemplos em “Estatística na Prática”: Food Lion (Capítulo 8) e John Morrell & Company 
(Capítulo 9). 


Materiais Novos para Planilhas de Cálculo do Minitab e do Microsoft? Excel 


Apêndices das planilhas do Minitab e do Excel aparecem no final da maioria dos capítulos. Cada apêndi- 
ce oferece instruções passo-a-passo que tornam o uso do Minitab ou do Excel mais fácil para os alunos, 
de modo que possam realizar as análises estatísticas apresentadas no capítulo. Todos os apêndices foram 
atualizados para as últimas versões do Minitab e do Excel. Sete apêndices novos e/ou revisados foram adi- 
cionados no final dos capítulos sobre estatística descritiva, estimação por intervalo, teste de hipóteses e 
Tegressao. 


Apresentação 


Características e Pedagogia 


Continuamos com muitas das características introduzidas em edições anteriores. Algumas das mais impor- 
tantes são destacadas a seguir. 


Exercícios de Métodos e Exercícios de Aplicações 


Os exercícios ao final de cada seção estão divididos em duas partes: Métodos e Aplicações. Os exercícios 
de Métodos exigem que os alunos usem as fórmulas e façam os cálculos necessários. Os exercícios de 
Aplicações requerem que os alunos usem o material do capítulo em situações reais. Desse modo, eles foca- 
lizam primeiro as generalidades computacionais e depois se dedicam às sutilezas da aplicação e interpre- 
tação estatística. 


Exercícios de Autoteste 


Certos exercícios são identificados como Autoteste. Soluções completas para tais exercícios são ofereci- 
das no Apêndice D no final do livro. Os alunos podem tentar resolvê-los e imediatamente verificar as res- 
postas para avaliar sua compreensão dos conceitos apresentados no capítulo. 


Notas e Comentários 


No final de muitas seções, acrescentamos notas e comentários que foram planejados para fornecer ao aluno 
critérios adicionais sobre a metodologia estatística e sua aplicação. A seção “Notas e Comentários” inclui 
avisos sobre as limitações da metodologia, recomendações para as aplicações, descrições suscintas de con- 
siderações técnicas adicionais e outros assuntos. 


Conjuntos de Dados Acompanham o Livro 


Aproximadamente 160 conjuntos de dados estão disponíveis para alunos e professores que utilizam esta 
obra, tanto em formato Minitab como em formato Excel. Ao longo do texto são usados logotipos denom- 
inados Arquivos da Internet para identificar este material, que se encontra no site: 

www. thomsonleaming.com.br/estatapi.htm 
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CAPÍTULO 1 


Dados e a Estatística 


ESTATÍSTICA NA PRÁTICA 


BUSINESS WEEK* 
Nova York, NY 


Com uma circulação global de mais de um milhão de exemplares, a Business Week é a revista de negócios 
mais lida em todo o mundo. Mais de 200 repórteres exclusivos e editores em 26 agéncias internacionais publi- 
cam uma série de artigos que interessam à comunidade empresarial e económica. Além dos artigos especiais 
sobre temas da atualidade, a revista contém seções regulares sobre negócios internacionais, análise económi- 
ca, processamento de informação e ciência e tecnologia. As informações apresentadas nos artigos e nas 
seções regulares ajudam o leitor a manter-se atualizado sobre os acontecimentos e a avaliar o impacto des- 
ses acontecimentos sobre a economia e os negócios. 

À maioria das edições da Business Week fornece uma reportagem mais aprofundada sobre um assunto de 
interesse atual. Frequentemente essas reportagens contêm fatos e resumos estatísticos que ajudam o leitor a 
entender a informação empresarial ou econômica. Por exemplo, a edição de 1| de novembro de 2003 trou- 
xe uma reportagem sobre o novo impulso das comunicações sem fio; a edição de 15 de dezembro de 2003 
publicou sobre os meihores produtos de 2003; a edição de 12 de janeiro de 2004 descreveu o panorama 
econômico para 2004, conforme a visão da indústria; e a edição de 26 de janeiro de 2004 continha informa- 
ções sobre os melhores fundos mútuos para o ano seguinte, Além disso, a seção semanal Business Week 
Investor apresenta dados estatísticos sobre a economia, incluindo índices de produção, preços de ações, fun- 
dos mútuos e taxas de juros. 

A Business Week também usa a estatística e informações estatísticas para gerenciar seu próprio negócio. 
Por exemplo, uma pesquisa anual feita com os assinantes ajuda a empresa a conhecer aspectos demográficos 
relativos a eles, seus hábitos de leitura, probabilidade de compras, estilos de vida e assim por diante. Os 
gerentes da Business Week utilizam os sumários estatísticos dessa pesquisa para oferecer melhores serviços 
aos assinantes e aos anunciantes. 


* Os autores agradecem a Charlene Trentham, gerente de Pesquisas da Business Week, por fornecer esta “Estatística na Prática”. 
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Uma pesquisa recente com os assinantes norte-americanos indicou que 9096 dos assinantes da Business 
Week tém computadores em casa e que 6496 articulam a compra de um computador no trabalho. Esse tipo 
de estatística alerta os gerentes da Business Week quanto ao interesse do assinante em artigos sobre novos 
desenvolvimentos na área da informática. Os resultados da pesquisa também são colocados à disposição de 
potenciais assinantes. A elevada porcentagem de assinantes que Usam computadores em casa e dos que articu- 
lam a compra de computadores no trabalho seria um incentivo para os fabricantes de computadores pensarem 
em anunciar na Business Week. . 

Neste capítulo, discutiremos os tipos de dados disponíveis para análise estatística e descreveremos como 
eles são obtidos. Apresentaremos a estatística descritiva e a inferência estatística como meios de se converter 
dados em informações estatísticas significativas e de fácil interpretação. 


Vemos com freqüéncia os seguintes tipos de afirmação em artigos de jornais e de revistas: 


* Uma pesquisa realizada pela Jupiter Media descobriu que 31% dos homens adultos passam dez ou 
mais horas por semana assistindo à televisão. Em relação às mulheres adultas, o resultado foi 26% 
(The Wall Street Journal, 26 de janeiro de 2004). 


* A General Motors, líder em descontos para carros de passeio, apresentou uma média de US$ 4.300 
de incentivo financeiro para a compra de veículos durante o ano de 2003 (USA Today, 23 de janeiro 
de 2004). 


* Mais de 40% dos gerentes da Marriott International iniciaram a carreira como funcionários de 
baixo escalão (Fortune, 20 de janeiro de 2003). 


* Os empregos no setor de administração e finanças tiveram uma média de US$ 49.712 quanto ао 
salário anual para 2003 (The World Almanac, 2004). 


* Os empregadores planejavam contratar 12,7% mais pessoas com graduação universitária em 2004 
do que em 2003 (Collegiate Employment Research Institute, Michigan State University, fevereiro 
de 2004). 


* A equipe dos New York Yankees tem a folha de pagamento mais cara da principal liga de beisebol. 
Em 2003, a folha de pagamento da equipe foi de US$ 152.749.814, com uma média de 
US$ 4.575 mil por jogador (USA Today, 1º de setembro de 2003). 


* A Média Industrial Dow Jones (Dow Jones Industrial Average) fechou em 10.358 em 31 de março 
de 2004 (The Wall Street Journal, 1° de abril de 2004). 


Os fatos numéricos contidos nas afirmações dadas (31%, 26%, US$ 4.300, 40%, US$ 49.712, 12,796, 
US$ 152.749.814, 4.575 mil e 10.358, denominam-se estatísticas. Desse modo, no uso diário o termo 
estatística refere-se a fatos numéricos. Entretanto, a área ou o tema da estatística envolve muito mais do 
que fatos numéricos. Em um sentido amplo, estatística é a arte e a ciência de coletar, analisar, apresentar e 
interpretar dados. Especialmente na área da administração e economia, as informações obtidas por meio de 
coleta, análise, apresentação e interpretação dos dados proporcionam aos gerentes e tomadores de decisões 
uma melhor compreensão do ambiente empresarial e económico e, assim, capacita-os a tomar decisões mais 
fundamentadas e de melhor qualidade, Neste livro, enfatizamos o uso da estatística para tomar decisões nas 
áreas de administração e economia. | 

O Capítulo 1 inicia-se com algumas ilustrações da aplicação da estatística no setor de administração e 
economia. Na Seção 1.2, definimos o termo dados e introduzimos o conceito de conjunto de dados. Essa 
seção também apresenta termos-chave, tais como variáveis e observações, discute a diferença entre dados 
quantitativos e qualitativos e ilustra o uso de dados transversais e de séries históricas. A Seção 1.3 discu- 
te como é possível obter dados de fontes existentes ou por intermédio de pesquisa e estudos experimentais 
idealizados para obter novos dados. O importante papel que a Internet agora desempenha na obtenção de 
dados também é realçado. A utilização de dados para desenvolver estatística descritiva e para se fazer infe- 
rências estatísticas será descrita nas Seções 1.4 e 1.5. 


1.1 APLICAÇÕES EM ADMINISTRAÇÃO E ECONOMIA 


No moderno ambiente administrativo e econômico global, qualquer pessoa pode ter acesso a uma enorme 
quantidade de informações estatísticas. Os gerentes e tomadores de decisão mais bem-sucedidos são aque- 
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les capazes de entender a informação e usá-la eficazmente. Nesta seção, apresentamos exemplos que ilus- 
tram algumas utilizações da estatística nas áreas da administração e economia, 


Contabilidade . | <<. аа 


Empresas públicas de contabilidade utilizam procedimentos de amostragem estatística ao realizarem audi- 
torias para seus clientes. Por exemplo, suponha que uma firma de contabilidade queira determinar se o 
valor das contas a receber indicado na folha de balancete de um cliente representa fielmente o valor real 
das contas a receber. Geralmente o grande número de contas a receber individuais toma a revisão e vali- 
dação de cada conta algo demasiadamente demorado e dispendioso. A prática comum nessas situações é 
a equipe de auditores selecionar um subconjunto das contas, denominado amostra. Depois de revisar a exa- 
tidão das contas amostradas, os auditores concluem se o valor das contas a receber apresentado na folha 
de balancete do cliente é aceitável. t 


Finânças ` А to | ` ` ' : “+ 


ШЕ Li nos 

Os analistas financeiros usam uma série de informações estatísticas para orientar suas recomendações de 
investimentos. No caso dos títulos financeiros, os analistas revisam uma série de dados financeiros que 
incluem os índices de preço/ganhos ou lucros e a rentabilidade em dividendos. Comparando a informação 
correspondente a um título individual com as informações sobre a média do mercado de ações, o analista 
financeiro pode concluir se um título individual está valorizado ou desvalorizado.'- ("vc >o ~ 

Por exemplo, a revista Barron's (6 de janeiro de 2003) publicou que a média dos índices de preço/ 
ganhos ou lucros dos 30 títulos da Média Industrial Dow Jones era de 22, 36. A General Electric apresen- 
tava um índice de preço/ganhos ou lucros igual a 16. Neste caso, à informação estatística sobre os índices 
de preço/ganhos ou lucros indicava um preço comparativamente menor para 05 ganhos ou lucros da 
General Electric em comparação aos títulos da Dow Jones. Portanto, um analista financeiro poderia con- 
cluir que os títulos da General Electric estavam desvalorizados. Esta e outras informações sobre a General 
Electric ajudariam o analista a recomendar a compra, venda ou manutenção dos títulos. 


Marketing 


E 


Scanners eletrónicos ütilizados nas caixas registradoras das lojas de venda a varejo coletam dados que sáo 
usados em uma série de aplicações de pesquisa de marketing. Por exemplo, fornecedores de dados como 
a ACNielsen e a Information Resources Inc. compram dados colhidos por scanners eletrónicos localiza- 
dos em pontos-de-venda de mercearias, processam esses dados e depois vendem seus sumários estatísti- 
cos a empresas de manufatura, Empresas mianufatureiras gastam centenas de milhares de dólares por cate- 
goria de produto para obter esse tipo de informação. A indústria também compra dados e sumários esta- 
tísticos a respeito de atividades promocionais, como a fixação de preços especiais e o uso de exibições em 
vídeo nas lojas. Gerentes de marca podem revisar os dados estatísticos dos scanners e os dados estatísti- 
cos da atividade promocional para obter um entendimento melhor da relação entre as atividades promo- 
cionais e as vendas. Esse tipo de análise muitas vezes é útil para estabelecer as futuras estratégias de mar- 
keting para os vários produtos. 


Produção ` 


A atual ênfase na qualidade torna o controle da qualidade uma importante aplicação da estatística na área 
de produção. Usa-se uma série de mapas estatísticos de controle da qualidade para monitorar o resultado 
(output) de um processo de produção. Em especial, pode-se usar um gráfico de barras para monitorar a 
média do produto. Suponha, por exemplo, que uma máquina preencha recipientes com 340 ml de determi- 
nado refrigerante. Periodicamente, um funcionário do setor de produção seleciona uma amostra dos reci- 
pientes e calcula a quantidade média de refrigerante em mililitros. Essa média, ou valor de barra, é traça- 
da em um gráfico de barras. Um valor acima do limite máximo de controle no gráfico mostra que o reci- 
piente tem um volume de refrigerante maior que o especificado, e um valor abaixo do limite mínimo de 
controle no gráfico mostra que o recipiente tem um volume menor do que o especificado. O processo é 
chamado “sob controle” e pode prosseguir contanto que os valores de barras traçados se situem entre os 
limites de controle máximo e mínimo indicados no gráfico. Adequadamente interpretado, um gráfico de 
barras pode ajudar a estabelecer quando há a necessidade de ajustes para corrigir o processo de produção. 


Economia 


Os economistas freqüentemente fornecem previsões sobre o futuro da economia ou algum aspecto dela. Eles 
usam uma série de informações estatísticas para fazer essas previsões. Por exemplo, ao preverem as taxas de 
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são significativas. Por exemplo, o estudante 1 pontuou 1.120 — 1.050 = 70 pontos a mais que o estudante 
2, ao passo que o estudante 2 pontuou 1.050 — 970 = 80 pontos a mais que o estudante 3. 

A escala de medição de uma variável é uma escala de proporção se os dados tiverem todas as proprie- 
dades de dados de intervalo e a proporção de dois valores for significativa. Variáveis como distância, altu- 
га, peso e tempo usam como medição a escala de proporção. Essa escala exige que um valor zero seja 
incluído para indicar que não existe nada para a variável no ponto zero. Por exemplo, considere o custo de 
um automóvel. Um valor zero para o custo indicaria que o automóvel não tem nenhum custo e é grátis. 
Além disso, se compararmos o custo de US$ 30 mil para um automóvel com o custo de US$ 15 mil para 
um segundo automóvel, a propriedade da razão mostra que o primeiro automóvel é US$ 30 mil/ 
US$ 15 mil = 2 vezes (ou o dobro) o custo do segundo automóvel. 


Dados Qualitativos e Quantitativos 


Os dados podem ser adicionalmente classificados como qualitativos ou quantitativos. Os dados qualitativos 
incluem rótulos ou nomes usados para identificar um atributo de cada elemento. Os dados qualitativos utili- 
zam a escala de medição nominal ou a ordinal e podem ser não-numéricos ou numéricos. Dados quantita- 
tivos requerem valores numéricos que indicam quantificação ou quantidade numérica. Dados quantitativos 
são obtidos usando-se ou a escala de medição intervalar ou a escala de proporção. 

Uma variável qualitativa é uma variável com dados qualitativos, e uma variável quantitativa é uma 
variável com dados quantitativos. A análise estatística apropriada de determinada variável depende de a va- 
riável ser qualitativa ou quantitativa. Se a variável for qualitativa, a análise estatística será bastante limita- 
da. Podemos sintetizar os dados qualitativos contando o número de observações em cada categoria qualita- 
tiva ou calculando a proporção das observações em cada categoria qualitativa. Entretanto, mesmo quando 
os dados qualitativos usam um código numérico, operações aritméticas como a adição, subtração, multipli- 
cação e divisão não produzem resultados significativos. A Seção 2.1 discute maneiras de sintetizar dados 
qualitativos. 

No entanto, operações aritméticas freqüentemente produzem resultados significativos para uma variável 
quantitativa. Por exemplo, em relação a uma variável quantitativa, os dados podem ser somados e depois 
divididos pelo número de observações para calcularmos o valor médio, Essa média geralmente é significa- 
tiva e facilmente interpretada. Em geral, quando os dados são quantitativos há mais alternativas para a aná- 
lise estatística. A Seção 2.2 e o Capítulo 3 apresentam maneiras de sintetizar dados quantitativos. 


Dados de Seção Transversal e de Série Histórica 


Para fins de análise estatística, é importante estabelecer a distinção entre dados de seção transversal e 
dados de série histórica. Dados de seção transversal são dados coletados no mesmo intervalo de tempo 
ou aproximadamente no mesmo intervalo de tempo. Os dados da Tabela 1.1 são transversais porque des- 
crevem as cinco variáveis correspondentes aos 25 shadow stocks (títulos-fantasma) no mesmo intervalo de 
tempo. Dados de série histórica são dados coletados ao longo de diversos períodos. Por exemplo, a Figura 
1.1 apresenta um gráfico da média de preço por galão de gasolina comum sem chumbo, nas cidades norte- 
americanas. O gráfico mostra uma abrupta elevação do preço médio por galão a partir de janeiro de 2004. 
Ao longo de um período de cinco meses, a média de preço por galão se elevou de US$ 1,49 para US$ 1,81. 
A maioria dos métodos estatísticos apresentados neste livro se aplica ao tipo de dados de seção transver- 
sal, não a dados de série histórica. 


NOTAS E COMENTÁRIOS 


1. Uma observação é o conjunto de medidas obtidas correspondentes a cada elemento de um conjunto de 
dados. Portanto, o número de observações é sempre igual ao número de elementos. O número de medidas 
obtidas correspondentes a cada elemento é igual ao número de variáveis. Portanto, o número total de itens 
de dados pode ser determinado multiplicando-se o número de observações pelo número de variáveis. 

2. Os dados quantitativos podem ser discretos ou contínuos. Dados quantitativos que medem a quantida- 
de são discretos. Dados quantitativos que medem a quantificação são contínuos, porque não ocorre 
nenhuma separação entre os valores de dados possíveis. 
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Figura 1.1 Preço médio por galão de gasolina comum sem chumbo, nas cidades norte-americanas 
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Fonte: U.S. Energy Information Administration, maio de 2004. 


1.3 AS FONTES DE DADOS 


Os dados podem ser obtidos de fontes existentes ou de pesquisas e estudos experimentais concebidos para 
esse fim. 


Fontes Existentes 


Em alguns casos, os dados necessários a uma aplicação em particular já existem. As empresas mantêm uma 
série de bancos de dados sobre seus empregados, clientes e operações empresariais. Dados sobre salários 
dos empregados, idade e experiência geralmente podem ser obtidos dos registros internos do departamento 
pessoal. Outros registros internos contêm dados sobre vendas, gastos com propaganda, custos de distribui- 
ção, níveis de estoque e quantidades de produção. A maioria das empresas também mantém dados detalha- 
dos a respeito de seus clientes. A Tabela 1.2 apresenta alguns dos dados que habitualmente estão disponí-, 
veis nos registros internos da empresa. 

Organizações especializadas em coletar e manter dados disponibilizam uma quantidade substancial de 
dados empresariais e econômicos. As empresas têm acesso a essas fontes externas de dados por contratos 
de leasing?, ou por meio de compra. A Dun & Bradstreet, a Bloomberg e a Dow Jones & Company são 
três firmas que oferecem amplos serviços de bancos de dados empresariais aos seus clientes. 


Tabela 1.2 Exemplos de dados disponíveis nos registros internos das empresas 


Fonte Dados Tipicamente Disponíveis 

Registros de funcionários Nome, endereço, número do seguro social, número de dias de férias, número 
de dias dedicados a tratamento de saúde e bonificações. 

Registros de produção Número de peças ou produtos, quantidade produzida, custo de mão-de-obra 
e custo de matérias-primas. 

Registros de estoques Número de peças ou produtos, número de unidades disponíveis, nível de 
reencomenda, lote econômico de compra e programa de descontos. 

Registros de vendas Número do produto, volume de vendas, volume de vendas por região e volume 
de vendas por tipo de cliente. 

Registros de crédito Nome do cliente, endereço, número telefônico, limite de crédito e saldo de contas 
a receber. : 

Perfil do cliente Idade, sexo, пме! de renda, tamanho da família, endereço e preferências. 


3 NT: Leasing — Arrendamento mercantil. 
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A AC Nielsen e a Information Resources, Inc. construíram negócios bem-sucedidos coletando e proces- 
sando dados que são vendidos a empresas de publicidade e de manufatura. 

Dados também se encontram disponíveis em uma série de associações industriais e organizações de 
interesse especial. A Travel Industry Association of America mantém informações relacionadas a viagens, 
por exemplo, o número de turistas e os gastos em viagens, organizados por Estado. Esses dados interessa- 
riam a firmas e a pessoas da indústria de viagens. O Graduate Management Admission Council mantém 
dados sobre notas de exames, características do estudante e programas de ensino de pós-graduação em 
administração. A maior parte dos dados desses tipos de fontes se encontra disponível a usuários habilita- 
dos a um pequeno custo. 

A internet continua a se expandir como uma importante fonte de dados e de informações estatísticas. 
Quase todas as empresas mantêm websites que fornecem informações gerais sobre a empresa, bem como 
dados de vendas, número de empregados, número de produtos, preços dos produtos e especificações dos 
produtos. Além disso, agora, um grande número de empresas se especializa em tornar disponível informa- 
ções pela rede. Em conseqüéncia, pode-se ter acesso a cotações de ações, preços de refeições em restau- 
rantes, dados salariais e uma variedade quase infinita de informações. 

Órgãos governamentais são outra fonte importante de dados existentes. Por exemplo, o U.S. 
Department of Labor (departamento do trabalho norte-americano) mantém dados consideráveis sobre os 
índices de emprego, índices salariais, tamanho da força trabalhista e afiliação sindical. A Tabela 1.3 rela- 
ciona os órgãos governamentais e alguns dos dados que eles oferecem. A maioria dos órgãos governamen- 
tais que coleta e processa dados também disponibiliza os resultados por meio de um site. Por exemplo, o 
U.S. Census Bureau (departamento do censo norte-americano) tem uma vasta quantidade de dados em seu 
endereço: www.census.gov. A Figura 1.2 exibe a página inicial do U.S. Census Bureau. 


Estudos Estatísticos 


Às vezes, os dados necessários a uma aplicação em particular não se encontram disponíveis por meio das 
fontes existentes. Nesses casos, frequentemente os dados são obtidos pela realização de um estudo estatís- 
tico. Os estudos estatísticos podem ser classificados como experimentais ou baseados na informação. 

Em um estudo experimental, identifica-se primeiro a variável de interesse. Então, uma ou mais variá- 
veis adicionais são identificadas e controladas a fim de que se possam obter dados a respeito de como elas 
influem na variável de interesse. Por exemplo, uma empresa farmacêutica poderia estar interessada em rea- 
lizar um experimento para saber como um novo medicamento afeta a pressão sangüínea. A pressão san- 
güínea é a variável de interesse no estudo. Espera-se que a dosagem do novo medicamento seja outra variá- 
vel com efeito causal sobre a pressão sangüínea. Para obter dados sobre o efeito do novo medicamento, os 
pesquisadores selecionam uma amostra de indivíduos. A dosagem do novo medicamento é controlada, 
uma vez que diferentes grupos de pessoas recebem diferentes dosagens. 

Antes e depois, coletam-se dados sobre a pressão sangüínea de cada um dos grupos. A análise estatís- 
tica dos dados experimentais pode ajudar a determinar a maneira pela qual o novo medicamento afeta a 
pressão sangüínea. 


Tabela 1.3 Exemplos de dados disponíveis em órgãos governamentais selecionados 


Órgão Governamental Dados Disponíveis 

Census Bureau Dados populacionais, número de famílias e renda familiar. 

http://www.census.gov 

Federal Reserve Board Dados sobre a base monetária, crédito de prestações, taxas de 

http://www. federalreserve.gov câmbio e taxas de desconto. 

Office of Management and Budget Dados sobre a receita, gastos e débito do governo federal. 

http:/Avww.whitehouse.gov/omb 

Department of Commerce Dados sobre a atividade empresarial, valor das exportações, 

http://www.doc.gov nível de lucro da indústria e setores industriais que estão em 
crescimento ou declínio, 

Bureau of Labor Statistics Gastos de consumo, remuneração por hora de trabalho, taxa 

http:/Awww.bls.gov de desemprego, registros de segurança no trabalho e estatísticas 


internacionais. 
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Figura 1.2 Página inicial do U.S. Census Bureau 
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Figura 1.3 Questionário de consulta aos clientes utilizado pelo Lobster Pot Restaurant, 


em Reddington Shores, Flórida 
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Estamos felizes com sua presenga no Lobster Pot e queremos ter certeza de que vocé 
voltará a nos visitar. Assim, se tiver tempo, gostaríamos que preenchesse esta ficha. Seus 
comentários e sugestóes sáo da máxima importáncia para nós. Muito obrigado! 


Nome do garcom 
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O que o(a) motivou a nos visitar? 


Por favor, deposite esta ficha na caixa de sugestões na entrada do restaurante. Obrigado. 
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Estudos estatísticos não-experimentais, ou baseados na observação, não fazem nenhuma tentativa de 
controlar as variáveis de interesse. Uma pesquisa talvez seja o tipo mais comum de estudo baseado na 
observação. Por exemplo, em uma pesquisa que se realiza por meio de entrevistas pessoais, primeiramen- 
te são identificadas as perguntas a serem feitas. Depois, um questionário é projetado e ministrado a uma 
amostra de indivíduos. Alguns restaurantes utilizam estudos baseados na informação para obter dados 
sobre a opinião dos clientes quanto à qualidade da comida, atendimento, ambiente etc. Um questionário 
utilizado pelo Lobster Pot Restaurant, em Reddington Shores, Flórida, é apresentado na Figura 1.3. 
Observe que os clientes que respondem ao questionário são solicitados a apresentar avaliações de cinco 
variáveis: qualidade da comida, gentileza no atendimento, rapidez no atendimento, higiene e gerência. As 
categorias de resposta “excelente”, “bom”, “satisfatório” e “insatisfatório” fornecem dados ordinais que 
possibilitam aos gerentes do Lobster Pot avaliar a qualidade do funcionamento do restaurante. 

Gerentes que queiram utilizar dados e análises estatísticas como apoio para a tomada de decisões 
devem estar cientes do tempo e custo necessários para a obtenção dos dados. O uso de fontes de dados 
existentes é desejável quando há a necessidade de os dados serem obtidos em um período relativamente 
curto. Se dados importantes não estiverem prontamente disponíveis, o tempo e o custo envolvidos em sua 
obtenção devem ser levados em conta. Em todos os casos, o tomador de decisões deve considerar a con- 
tribuição da análise estatística no processo de tomada de decisão. O custo da obtenção de dados e da sub- 
sequente análise estatística não deve ultrapassar a economia gerada pelo uso da informação para se tomar 
uma decisão melhor. 


Erros na Obtenção de Dados 


Os gerentes devem sempre estar cientes da possibilidade de erros de dados nos estudos estatísticos. Usar 
dados errados pode ser pior do que não usar absolutamente nenhum dado. Um erro na obtenção de dados 
ocorre sempre que o valor de dados obtido não é igual ao valor verdadeiro ou real que seria obtido com 
um procedimento correto. Esses erros podem ocorrer de diversas maneiras. Por exemplo, um entrevista- 
dor poderia cometer um erro de registro, como a transposição ao escrever a idade de uma pessoa que tem 
24 anos como uma de 42, ou a pessoa que responde às perguntas de uma entrevista poderia interpretar erro- 
neamente a questão e fornecer uma resposta incorreta. 

Analistas de dados experientes tomam muito cuidado ao coletar e registrar dados, a fim de assegurar 
que não se cometam erros. Procedimentos especiais podem ser usados para verificar a coerência interna 
dos dados. Por exemplo, esses procedimentos indicariam que o analista deve revisar a exatidão dos dados 
de uma pessoa que responde ter 22 anos de idade e 20 anos de experiência de trabalho. Os analistas de 
dados também revisam dados com valores incomumente elevados ou baixos, chamados dados “fora da 
curva”, os quais são candidatos a possíveis erros. No Capítulo 3, apresentamos alguns dos métodos que os 
estatísticos usam para identificar esse tipo de dados. 

Os erros frequentemente ocorrem durante a obtenção dos dados. Utilizar cegamente quaisquer dados 
que possam estar disponíveis ou usar aqueles que foram obtidos com pouco cuidado pode resultar em 
informações enganosas e decisões ruins. Assim, tomar as medidas necessárias para obter dados precisos 
pode ajudar a assegurar que a informação será confiável e a tomada de decisões, valiosa. 


1.4 ESTATÍSTICA DESCRITIVA 


A maioria das informações estatísticas publicadas nos jornais, revistas, relatórios de empresas e outras publi- 
cações consiste em dados sintetizados e apresentados de forma fácil de entender para o leitor. Esses sumá- 
rios de dados, que podem ser tabulares, gráficos ou numéricos, são conhecidos como estatística descritiva. 

Consulte novamente o conjunto de dados da Tabela 1.1, que mostra dados referentes a 25 shadow 
stocks. Métodos de estatística descritiva podem ser usados para produzir sumários da informação contida 
nesse conjunto de dados. Por exemplo, um sumário tabular dos dados correspondentes à variável qualita- 
tiva bolsa de valores é exposto na Tabela 1.4. Um sumário gráfico dos mesmos dados encontra-se na 
Figura 1.4. Esses tipos de sumários tabulares e gráficos geralmente tornam os dados mais fáceis de ser 
interpretados. Consultando a Tabela 1.4 e a Figura 1.4, podemos ver facilmente que a maioria dos títulos 
do conjunto de dados é comercializada fora da bolsa (balcão). Em termos percentuais, 68% dos títulos são 
comercializados no balcão; 20%, na American Stock Exchange (Amex), е 20%, na New York Stock 
Exchange (Nyse). 
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Um sumário gráfico dos dados correspondentes à variável quantitativa Margem de Lucro Bruto dos sha- 
dow stocks, denominado histograma, é apresentado na Figura 1.5. No histograma toma-se fácil ver que as 
margens de lucro bruto variam de 0% a 75%, sendo as concentrações mais altas situadas entre 30% e 45%. 


Tabela 1.4 Freqüéncias e frequências percentuais da variável "bolsa de valores" 


Frequência 

Bolsa de Valores Freqüéncia Percentual 
New York Stock Exchange (INyse) 3 12 
American Stock Exchange (Amex) 5 20 
Over-the-counter (OTC) 17 68 
Totais 25 100 


Figura 1.4 Gráfico em barras da variável "bolsa de valores" 
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Figura 1.5 Histograma da margem de lucro bruto (%) dos 25 shadow stocks 
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Além das apresentações tabulares e gráficas, usam-se estatísticas descritivas numéricas para sintetizar os 
dados. A estatística descritiva numérica mais comum é a média. Usando os dados da variável capitalização 
de mercado dos shadow stocks mostrados na Tabela 1.1, podemos calcular a média de capitalização de mer- 
cado somando a capitalização de mercado de todas as 25 ações e dividindo a soma por 25. Essa operação 
produz uma média de capitalização de mercado igual a US$ 112,4 milhões. Essa média é tomada como uma 
medida da tendência central, ou posição central, dos dados correspondentes a essa variável. 

Em muitas áreas, continua a aumentar o interesse nos métodos estatísticos que podem ser usados para 
desenvolver e apresentar estatísticas descritivas..Os Capítulos 2 e 3 dedicam atenção aos métodos estatís- 
ticos tabulares, gráficos e numéricos de estatística descritiva. 


1.5 INFERÊNCIA ESTATÍSTICA 


Muitas situações requerem dados.relativos a um grupo amplo de elementos (indivíduos, empresas, eleito- 
res, famílias, produtos, clientes еїс.). Em virtude do tempo, custo e outros fatores, podem-se coletar dados 
somente de uma pequena parte do grupo. O grupo mais amplo dos elementos de determinado estudo deno- 
mina-se população e o grupo menor, amostra. Formalmente, usamos as seguintes definições: 


POPULAÇÃO 
Uma população é o conjunto de todos os elementos de interesse em determinado estudo. 


AMOSTRA 
Uma amostra é um subconjunto da população. 


O processo de realização de uma pesquisa para coletar dados correspondentes à população inteira 
chama-se censo. O processo de realização de uma pesquisa para coletar dados correspondentes a uma 
amostra denomina-se pesquisa amostral. Como uma de suas maiores contribuições, a estatística usa 
dados de uma amostra para fazer estimativas e testar hipóteses a respeito das características de uma popu- 
lação, utilizando um processo conhecido como inferência estatística. 

Como um exemplo de inferência estatística, consideremos o estudo realizado pela Norris Electronics. 
A Norris produz um tipo de lâmpada de alta intensidade utilizada em uma série de produtos elétricos. 
Nesse caso, a população é definida como todas as lâmpadas que poderiam ser produzidas com o novo fila- 
mento. Para avaliar as vantagens do novo filamento, foram produzidas e testadas 200 lâmpadas com o novo 
filamento. Os dados coletados dessa amostra indicavam o número de horas que cada lâmpada permaneceu 
em operação antes de o filamento queimar-se. Veja a Tabela 1.5. 


Tabela 1.5 A durabilidade em horas de uma amostra de 200 lâmpadas do exemplo da Norris Electronics 


107 73 68 97 76 79 94 59 98 57 
54 65 7l 70 84 88 62 61 79 98 
66 62 79 86 68 74 [1 82 65 98 
62 116 65 88 64 79 78 79 77 86 
74 85 73 80 68 78 89 72 58 69 
92 78 88 77 103 88 63 68 88 8! 
75 90 62 89 71 71 74 70 74 70 
65 81 75 62 94 71 85 84 83 63 
8! 62 79 83 9з 6l 65 62 92 65 
83 70 70 81 77 72 84 67 59 58 
78 66 66 94 77 63 66 75 68 76 
90 78 71 101 78 43 59 67 6l 71 
96 75 64 76 72 77 74 65 82 86 
66 86 96 89 8] 71 85 99 59 92 
68 72 77 60 87 84 75 77 51 45 
85 67 87 80 84 93 69 76 89 75 
83 68 72 67 92 89 82 96 77 102 
74 91 76 83 66 68 6] 73 72 76 
73 77 79 94 63 59 62 71 81 65 


73 63 63 89 82 64 85 92 64 73 
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Suponha que a Norris queira usar os dados da amostra para fazer uma inferência a respeito da durabi- 
lidade média da população de todas as lâmpadas que poderiam ser produzidas com o novo filamento. A 
operação de somar os 200 valores da Tabela 1.5 e dividir o total por 200 produz a durabilidade média das 
lâmpadas da amostra: 76 horas. Podemos usar esse resultado amostral para estimar que a durabilidade 
média das lâmpadas da população é igual a 76 horas. A Figura 1.6 apresenta um sumário gráfico do pro- 
cesso de inferência estatística para a Norris Electronics. 

Sempre que os estatísticos usam uma amostra para estimar determinada característica da população de 
interesse, geralmente apresentam uma declaração da qualidade, ou precisão, associada à estimativa. 

Em relação ao exemplo da Norris, o estatístico poderia afirmar que a estimativa pontual da durabili- 
dade média da população de novas lâmpadas é igual a 76 horas, com uma margem de erro de aproxi- 
madamente 4 horas. Assim, um intervalo estimado da durabilidade média para todas as lâmpadas produ- 
zidas é de 72 a 80 horas. O estatístico pode declarar também qual é o seu grau de confiança em que o 
intervalo de 72 a 80 horas contém a população média. ` 


Figura 1.6 O processo de inferência estatística do exemplo da Norris Electronics 


|. A população 
é composta de todas 
as lâmpadas produzidas 
com o novo filamento. 
A durabilidade _ 
média é 
desconhecida. 


2. Uma amostra de 200 
, lâmpadas é produzida com o“ 
novo filamento. ^» - 


“ 


` RES ас, n “ 
4. A média da amostra é usada 
para estimar a média da 


população, , 


3. Os dados amostrais fornecem 
uma durabilidade média de 76 
. horas por lâmpada da amostra, , 


1.6 COMPUTADORES E A ANÁLISE ESTATÍSTICA 


Uma vez que a análise estatística tipicamente envolve grandes quantidades de dados, os analistas freqüente- 
mente usam software de computador para esse trabalho. Por exemplo, calcular a durabilidade média das 200 
lâmpadas do exemplo da Norris Electronics (veja a Tabela 1,5) seria um trabalho bastante tedioso sem o uso 
de um computador. Para facilitar o uso do computador, os conjuntos de dados mais extensos deste livro estão 
disponíveis em www.thomsonlearning.com.br/estatapl.htm. Os arquivos de dados estão disponíveis tanto no 
formato Minitab como no formato Excel. Além disso, fornecemos instruções nos apêndices dos capítulos a 
respeito de como executar muitos dos procedimentos estatísticos usando o Minitab e o Excel. 


Resumo 


Estatística é a arte e ciência de coletar, analisar, apresentar e interpretar os dados. Quase todo estudante 
universitário que se especializa em negócios ou economia tem necessidade de fazer um curso de 
Estatística. Iniciamos o capítulo descrevendo as aplicações estatísticas típicas das áreas de administração 
e economia. 

Dados são os fatos e os números que são coletados e analisados. As quatro escalas de medição usadas 
para obter dados sobre determinada variável são as seguintes: nominal, ordinal, intervalar e de proporção. A 
escala de medição de uma variável é nominal quando os dados utilizam rótulos ou nomes para identificar 
determinado atributo de um elemento. A escala é ordinal se os dados apresentam as propriedades inerentes 
aos dados nominais e a ordem, ou classificação, é significativa. A escala de medição é intervalar se os dados 
apresentam as propriedades inerentes aos dados ordinais e o intervalo entre os valores é expresso em termos 
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de uma unidade de medida fixa. Finalmente, a escala de medição é de proporção se os dados apresentam 
todas as propriedades inerentes aos dados de intervalo e a proporcáo dos dois valores é significativa. 

Para fins de análise estatística, os dados podem ser classificados como qualitativos ou quantitativos. Os 
dados qualitativos usam rótulos ou nomes para identificar determinado atributo de cada elemento. Os 
dados qualitativos utilizam a escala de medição nominal ou a ordinal, e podem ser numéricos ou náo- 
numéricos. Dados quantitativos são valores numéricos que indicam quantificação ou quantidade, Os dados 
quantitativos usam a escala de medição de intervalos ou de proporção. Operações numéricas comuns são 
significativas somente se os dados forem quantitativos. Portanto, cálculos estatísticos utilizados para dados 
quantitativos nem sempre são apropriados para dados qualitativos. 

Nas Seções 1.4 e 1,5, apresentamos os tópicos da estatística descritiva e inferência estatística. 
Estatística descritiva são os métodos tabulares, gráficos e numéricos utilizados para sintetizar os dados, O 
processo de inferência estatística usa dados obtidos de uma amostra para fazer estimativas ou testar hipó- 
teses referentes às características de uma população. Na última seção do capítulo destacamos que os com- 
putadores facilitam a análise estatística, Os conjuntos de dados mais extensos contidos em arquivos do 
Minitab ou Excel podem ser encontrados em www.thomsonlearning.com.br/estatapl.htm. 


Glossário 


Estatística A arte e ciência de coletar, analisar, apresentar e interpretar dados. 

Dados Os fatos e os números que são coletados, analisados e sintetizados para apresentação e interpretação. 

Conjunto de dados Todos os dados coletados em determinado estudo. 

Elementos Entidades em relação às quais os dados são coletados. 

Variável Característica dos elementos que nos interessa. 

Observação Conjunto de medidas obtidas de dado elemento. 

Escala nominal Escala de medição de uma variável quando os dados utilizam rótulos ou nomes para iden- 
tificar determinado atributo de um elemento. 

Escala ordinal Escala de medição de uma variável se os dados exibem as propriedades inerentes aos 
dados nominais e a ordem, ou classificação, dos dados é significativa. Os dados ordinais podem ser 
numéricos ou não-numéricos. 

Escala intervalar Escala de medição de uma variável se os dados apresentam as propriedades inerentes 
aos dados ordinais e o intervalo entre os valores é expresso em termos de uma unidade de medida fixa. 
Os dados de intervalo são sempre numéricos. 

Escala de proporção A escala de medição de uma variável se os dados demonstram todas as proprieda- 
des inerentes aos dados de intervalo e a proporção entre dois valores é significativa. Os dados de pro- 
porção são sempre numéricos. 

Dados qualitativos Rótulos ou nomes usados para identificar um atributo de cada elemento. Os dados 
qualitativos utilizam a escala de medição nominal ou a ordinal e podem ser numéricos ou não-numé- 
ricos. 

Dados quantitativos Valores numéricos que indicam a quantificação ou a quantidade de algo. Dados 
quantitativos são obtidos usando-se a escala de medição de intervalos ou de proporção. 

Variável qualitativa Variável com dados qualitativos. 

Variável quantitativa Variável com dados quantitativos. 

Dados de seção transversal Dados coletados no mesmo ou aproximadamente no mesmo intervalo de 
tempo. 

Dados de série histórica Dados coletados ao longo de diversos períodos. 

Estatística descritiva Sumários tabulares, gráficos e numéricos de dados. 

População Conjunto de todos os elementos que nos interessam em determinado estudo. 

Amostra Subconjunto da população. 

Censo Pesquisa com o objetivo de coletar dados sobre a população inteira. 

Pesquisa amostral Uma pesquisa com o objetivo de coletar dados relativos a uma amostra. 

Inferência estatística O processo de se usar os dados obtidos em uma amostra para fazer estimativas ou 
testar hipóteses a respeito das características de uma população. 


Capítulo 1 


Dados e a Estatística 


Exercícios 


1. Discuta a diferença entre a estatística como fatos numéricos e a estatística como disciplina ou área de 


estudo. 


2. Arevista Condé Nast Traveler realiza uma pesquisa anual dos assinantes para determinar os melho- 
res lugares para se hospedar em todos os lugares do mundo. A Tabela 1.6 apresenta uma amostra de 
nove hotéis europeus (Condé Nast Traveler, janeiro de 2000). O preco de um quarto de casal padráo 
durante a alta estação varia de $ (o preço mais baixo) a $$$$ (o preço mais alto). A pontuação global 
inclui a avaliação que os assinantes fazem dos quartos, do serviço, dos restaurantes, da localiza- 
ção/ambiente e das áreas públicas de cada hotel; uma pontuação global mais alta corresponde a um 


nível de satisfação mais elevado. 


a. Quantos elementos há nesse conjunto de dados? 
b. Quantas variáveis há nesse conjunto de dados? 
c. Quais variáveis são qualitativas e quais variáveis são quantitativas? 
d. Qual tipo de escala de medição é usada para cada uma das variáveis? 


3. Consulte a Tabela 1.6. 


а, Qual é o número médio de quartos dos nove hotéis? 
b. Calcule a pontuação global média. 
c. Qual é a porcentagem de hotéis localizados na Inglaterra? 
с. Qual é a porcentagem de hotéis com preços de quarto iguais a $$? 


Tabela 1.6 Avaliações de nove lugares para se hospedar na Europa 


Nome do 
Estabelecimento 


Graveteye Manor 
Villa d'Este 

Hotel Prem 

Hotel d'Europe 
Palace Luzern 

Royal Crescent Hotel 
Hotet Sacher 

Duc de Bourgogne 
Villa Gallici 


País 


Inglaterra 


Itália 


Alemanha 


França 
Suíça 


Inglaterra 


Austria 
Bélgica 
França 


Fonte: Condé Nast Traveler, janeiro de 2000. 


Preço do 
Quarto 


$$ 
$$$$ 
$ 
$$ 
$$ 
$$$ 
$$$ 


$ 
$$ 


Número 
de Quartos 


18 


Pontuação 
Global 


4. Os sistemas de som integrados, denominados minisystems, tipicamente incluem um rádio AM/FM, 
um tape deck duplo e um toca-CDs automático em um gabinete do tamanho de um livro com dois 
alto-falantes separados. Os dados da Tabela 1.7 mostram o preço de venda a varejo, a qualidade sono- 
ra, a capacidade de CDs, a sensibilidade e a seletividade do rádio AM/FM e o número de tape decks 


de uma amostra de 10 minisystems (Consumer Report Buying Guide 2002). 


Tabela 1.7 Uma amostra de dez minisystems 


Marca e Modelo 


Aiwa INSX-AJ800 
МС FS-SD 1000 
NC MX-G50 
Panasonic SC-PM t 
АСА RS 1283 
Sharp CD-BA2600 
Sony CHC-CLI 
Sony MHC-NXI 
Yamaha GX-505 
Yamaha MCR-E!00 


Preço ($) 


250 
500 
200 
170 
170 
150 
300 
500 
400 
500 


Qualidade 
Sonora 


Boa 

Boa 
Muito Boa 
Razoável 
Boa 

Boa 
Мийо Boa 
Boa 
Muito Boa 
Muito Boa 


Capacidade 
de CDs 


— Ut оо ооло) — UJ 


Sintonia 
de FM 


Razoáve! 
Muito Boa 
Excelente 
Muito Boa 
Ruim 

Boa 
Muito Boa 
Excelente 
Excelente 
Excelente 


о—ю—кюо—кю 


AUTOTESTE 


AUTOTESTE 


ARQUNO 
DA INTERNET 


Hotel 


DA INTERNET 
Minisystems 
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a. Quantos elementos esse conjunto de dados contém? 

b. Qual é a população? 

c. Calcule o preço médio da amostra. 

d. Usando os resultados obtidos no item (c), calcule a estimativa do preço médio da população. 


Considere o conjunto de dados da amostra de dez minisystems da Tabela 1.7. 


a. Quantas variáveis há no conjunto de dados? 

b. Quais das variáveis são quantitativas e quais são qualitativas? 

c. Qual é a capacidade média de CDs da amostra? 

d. Qual porcentagem dos minisystems apresenta uma avaliação ótima ou excelente para sintonia de 
FM? 

e. Qual porcentagem dos minisystems inclui dois tape decks? 

A Columbia House entrega CDs aos membros do seu clube através de encomenda postal. A Columbia 
House Music Survey solicitou que os novos membros do clube preenchessem um formulário de pes- 
quisa com 11 questões. Foram estas algumas das perguntas: 


а. Quantos CDs você comprou nos últimos 12 meses? 

b. Atualmente você é membro de algum “clube do livro” nacional que faz entregas por encomenda 
postal? (Sim ou Não). 

c. Qual é a sua idade? 

d. Quantas pessoas há em sua família (adultos e crianças), incluindo você? 

e. Qual estilo de música você está interessado em comprar? (Foram relacionadas 15 categorias, 
incluindo hard rock, soft rock, música contemporánea adulta, heavy metal, rap е country.) 

Comente se cada uma das perguntas fornece dados qualitativos ou quantitativos. 


Uma pesquisa levada a efeito pela revista Barron's (15 de setembro de 2000) pediu aos assinantes 
para indicar qual era sua situação de emprego. Os dados foram registrados considerando uma escala 
em que 1 representava uma pessoa empregada em tempo integral, 2 representava uma pessoa empre- 
gada em tempo parcial, 3 representava uma pessoa aposentada e 4 representava alguém desemprega- 
do (dona de casa, estudante etc.). 


a. À variável é a situação de emprego. Ela é uma variável qualitativa ou quantitativa? 
b. Qual tipo de escala de medição é usado para essa variável? 


A organização Gallup realizou uma pesquisa telefônica com uma amostra nacional de 1,005 adultos 
escolhidos aleatoriamente, com idades a partir dos 18 anos. A pesquisa perguntou aos consultados: 
“Como você descreveria sua própria saúde neste momento?" (http://gallup.com, 7 de fevereiro de 
2002). As categorias de resposta eram Excelente, Boa, Apenas Razoável, Ruim e Sem Opinião. 


a. Qual foi o tamanho da amostra dessa pesquisa? 

b. Os dados são qualitativos ou quantitativos? 

c. Teria mais sentido usar médias ou porcentagens como um sumário dos dados para essa pergunta? 
d. Dos consultados, 20% disseram que sua saúde pessoal estava excelente. Quantas pessoas deram 
essa resposta? 


O Departamento do Comércio registrou as seguintes inscrições ao Prêmio Nacional da Qualidade 
Malcolm Baldrige (Malcolm Baldrige National Quality Award): 23 de grandes empresas de manufa- 
tura, 18 de grandes empresas de serviços e 30 de pequenos negócios. 


a. O tipo de empresa é uma variável qualitativa ou quantitativa? 
b. Qual porcentagem das aplicações veio de pequenos negócios? 
Uma pesquisa do The Wall Street Journal (13 de outubro de 2003) entre seus assinantes contém 46 
perguntas a respeito das características e interesses destes. Declare se cada uma das seguintes pergun- 
tas produziu dados qualitativos ou quantitativos e indique a escala de medição apropriada a cada uma: 


a. Qual é a sua idade? 

b. Você é do sexo masculino ou feminino? 

c. Quando começou a ler o Wall Street Journal? No colégio, na universidade, no início da carreira, no 
meio da carreira, no fim da carreira, na aposentadoria? 

d. Há quanto tempo você está em seu emprego ou cargo atual? 

e. Qual tipo de veículo você pensa adquirir em sua próxima compra? Nove categorias de resposta 
incluem: sedã, carro esportivo, utilitário esportivo, minivan etc. 
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12. 


Declare se cada uma das seguintes variáveis é qualitativa ou quantitativa e indique sua escala de medição: 


a. Vendas anuais. 

b. Tamanho de refrigerante (pequeno, médio e grande). 

с. Classificação dos empregados (GS1 até GS18). 

d. Rendimento por ação. 

e. Método de pagamento (dinheiro, cheque, cartão de crédito). 


O Hawaii Visitors Bureau coleta dados sobre visitantes que chegam ao Havaí. As perguntas apresen- 
tadas a seguir estão entre as 16 que foram formuladas em um questionário entregue aos passageiros 
das empresas aéreas que chegavam ao país, em junho de 2003. 


* Esta é a minha primeira, segunda, terceira, quarta etc. viagem ao Havaí. 
* O motivo principal para esta viagem é: (dez categorias, incluindo férias, convenções e lua-de-mel). 
* Onde planejo me hospedar: (11 categorias, incluindo hotel, apartamento, parentes, camping). 
* Tempo de permanência (em dias) no Havaí. 

a. Qual é a população estudada? 

b. A utilização de um questionário é uma boa maneira de atingir a população de passageiros que che- 
gam nos vôos ao Havaí por via aérea? 

c. Comente cada uma das quatro perguntas em termos de elas fornecerem dados qualitativos e quan- 
titativos. 


Figura 1.7 Lucros da Volkswagen 


13. 


14. 


Lucros (US$ bilhões) 


1997 1998 1999 2000 2001 2002 


Апо 


A Figura 1.3 apresenta um gráfico de barras que sintetiza os lucros da Volkswagen correspondentes aos 
anos de 1997 a 2002 (Business Week, 23 de julho de 2001). 


a. Os dados são qualitativos ou quantitativos? 

b. Os dados são de série histórica ou transversais? 

c. Qual é a variável de interesse? 

d. Comente a tendência dos lucros da Volkswagem ao longo do tempo. Você esperaria ver uma eleva- 
ção ou queda em 2003? 


A Recording Industry of America faz um acompanhamento das vendas de gravacóes musicais levan- 
do em consideração o tipo de música, formato e faixa etária. Os dados a seguir apresentam as porcen- 
tagens das vendas de música de acordo com o tipo (The New York Times 2002 Almanac). 


Tipo 1996 1997 1998 1999 2000 
Rock 32,6 32,5 257 252 248 
Country 12,1 11,2 12,8 10,8 10,7 
R&B (Rhythm and Blues) 12,1 11,2 12,8 10,5 9,7 
Pop 93 94 10,0 10,3 EU 
Rap 8,9 10,1 97 10,8 12,9 
Gospel 43 4,5 6,3 5,1 48 
Clássico 34 2,8 33 3,5 27 
Jazz 33 2,8 19 3,0 29 
Outros 140 15,5 17,5 20,8 20,5 


AUTOTESTE 


ARQUIVO 
DA INTERNET 


Music 
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a. O tipo de música é uma variável qualitativa ou quantitativa? 

b. Construa um gráfico das vendas de rock ao longo de cinco anos; use o eixo horizontal para exibir 
о ano е o eixo vertical para exibir a porcentagem das vendas de gravações musicais. Este gráfico se 
baseia em dados de seção transversal ou de série histórica? 

c. Construa um gráfico de barras do tipo de vendas musicais em 2000. Este gráfico se baseia em dados 
de seção transversal ou de série histórica? 


15. A Food and Drug Administration (FDA) divulgou o número de novos medicamentos aprovados duran- 


te um período de oito anos (The Wall Street Journal, 12 de janeiro de 2004). A Figura 1.8 apresenta 
um gráfico de barras que sintetiza o número de novos medicamentos aprovados a cada ano. 


a. Os dados são qualitativos ou quantitativos? 

b. Os dados são de série temporal ou de seção transversal? 

с. Quantos novos medicamentos foram aprovados em 2003? 

d. Qual ano teve o menor número de medicamentos aprovados? Quantos? 

e. Comente a tendência do número de novos medicamentos aprovados pela FDA no período de oito 
anos. 


Figura 1.8 Número de novos medicamentos aprovados pela Food and Drug Administration (FDA) 


16. 


17. 


18. 
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А equipe de marketing de sua empresa desenvolveu um novo refrigerante dietético que, segundo afir- 
mam, conquistará uma grande fatia do mercado para jovens e adultos. 


a. Quais dados vocé quer examinar antes de decidir investir verbas substanciais para introduzir o novo 
produto no mercado? 


, b. Como você espera que os dados mencionados na questão (a) sejam obtidos? 


Um gerente de uma grande corporação recomenda que seja dado um aumento salarial de US$ 10 mil 
a um subordinado valioso para impedi-lo de sair da empresa. Quais fontes internas e externas de 
dados poderiam ser usadas para decidir se esse aumento salarial é apropriado? 


Uma pesquisa de 430 pessoas que viajam a negócios descobriu que 155 desses viajantes usavam um 
agente de viagens para fazer os arranjos da viagem (USA Today, 20 de novembro de 2003). 


а. Desenvolva uma estatística descritiva que possa ser utilizada para estimar a porcentagem de todos 
os viajantes de negócios que usam um agente de viagens para fazer os arranjos da viagem. 

b. A pesquisa divulgou que a maneira mais freqüente de os viajantes de negócios fazerem os arranjos 
de viagem é utilizando um site de viagens on-line. Se 44% dos viajantes de negócios pesquisados 
tiverem feito seus arranjos de viagem dessa maneira, quantos dos 430 viajantes de negócios usaram 
um site de viagens on-line? 

c. Os dados relativos a como os arranjos de viagem são feitos são qualitativos ou quantitativos? 
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21. 


22. 


23. 


Um estudo dos assinantes norte-americanos da Business Week coletou dados de uma amostra de 2.861 
assinantes. Cingüenta e nove por cento dos entrevistados indicaram uma renda anual de US$ 75 mil 
ou mais, e 5096 declararam ter um cartáo de crédito American Express. 


а. Qual é a população de interesse nesse estudo? 

b. A renda anual é uma variável qualitativa ou quantitativa? 

c. Possuir um cartão de crédito American Express é uma variável qualitativa ou quantitativa? 

d. Esse estudo envolve dados de seção transversal ou de série histórica? 

e. Descreva quaisquer inferências estatísticas que a Business Week possa ter feito com base na pesquisa. 


Um exame de 131 gerentes de investimentos que haviam participado da pesquisa de opinião Big 
Money da revista Barron's revelou o seguinte (Barron's, 28 de outubro de 2002): 


+ 43% dos gerentes classificavam a si mesmos como especuladores otimistas (bullish) ou muito oti- 
mistas na bolsa de valores. 

* A média do valor esperado durantes os próximos 12 meses era de 11,2%. 

+ 21% selecionaram o setor da saúde como o mais provável de liderar o mercado nos próximos 12 
meses. 

* Quando solicitados a estimar quanto tempo seria necessário para que as ações de empresas de tec- 
nologia e de comunicações retomassem um crescimento sustentável, a média da resposta dos 
gerentes foi 2,5 anos. 

a. Cite duas estatísticas descritivas. 

b. Faça uma inferência a respeito de toda a população de gerentes de investimento em relação à média 
de retorno esperado sobre o patrimônio líquido ao longo dos próximos 12 meses, 

c. Faça uma inferência a respeito da extensão de tempo necessária para que as ações das empresas de 
tecnologia e de telecomunicações retomem um crescimento sustentável. 


O estudo de uma pesquisa médica de sete anos relatou que as mulheres cujas mães tomaram a droga 
DES (dietilestilbestrol) durante a gravidez tinham o dobro de probabilidade de desenvolver anormali- 
dades celulares que poderiam resultar em câncer do que as mulheres cujas mães não haviam tomado. 


a. Esse estudo envolveu a comparação de duas populações. Quais eram elas? 

b. Você supõe que os dados foram obtidos em uma pesquisa ou em um experimento? 

c. Quanto à população de mulheres cujas mães tomaram a droga DES durante a gravidez, uma amos- 
tra de 3.980 mulheres apresentaram 63 anormalidades celulares que poderiam resultar em câncer. 
Forneça uma estatística descritiva que poderia ser usada para estimar o número de mulheres em 
cada grupo de mil dessa população que apresenta anormalidades celulares. 

d. Quanto à população de mulheres cujas mães não tomaram a droga DES durante a gravidez, qual é 
a estimativa do número de mulheres em cada grupo de mil que se poderia esperar que apresentem 
anormalidades celulares? 

e. Os estudos médicos fregüentemente usam uma amostra relativamente grande (nesse caso, 3.980). 
Por quê? 

No verão de 2003, Arnold Schwarzenegger concorreu com o governador Gray Davis ao governo da 

Califórnia. Uma pesquisa realizada pelo Policy Institute of California entre os eleitores inscritos rela- 

tou que Amold Schwarzenegger estava na liderança com uma estimativa de 54% dos votos 

(Newsweek, 8 de setembro de 2003). 

a. Qual foi a população dessa pesquisa? 

b. Qual foi a amostra dessa pesquisa? 

c. Por que foi usada uma amostra nessa situação? Explique. 


A Nielsen Media Research realiza pesquisas semanais dos telespectadores em todo o território norte- 
americano e depois publica os dados de audiência e de fatia de mercado. A audiência relatada pela 
Nielsen é a porcentagem dos lares que possuem televisores e que estão assistindo a um programa, ao 
passo que a fatia de mercado é a porcentagem dos lares que assistem a um programa entre os lares 
que estão com o televisor ligado. Por exemplo, os resultados da Nielsen Media Research referentes 
ao Baseball World Series de 2003 entre o New York Yankees e o Florida Marlins mostraram uma 
audiência de 12,8% e uma fatia de mercado de 22% (Associated Press, 27 de outubro de 2003). Desse 
modo, 12,8% dos lares que possuem televisores estavam assistindo ao World Series e 22% dos lares 
que estavam com os televisores ligados assistiam ao World Series. Baseando-se nos dados de audiên- 
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cia e de fatia de mercado dos principais programas de televisão, a Nielsen publica uma classificação 
semanal desses programas, bem como uma classificação semanal das quatro principais redes: ABC, 
CBS, NBC e Fox. 


a. O que a Nielsen Media Research tenta medir? 

b. Qual é a população da pesquisa? 

c. Por que uma amostra seria usada nessa situação? 

d. Quais tipos de decisão ou ações se baseiam nas classificações da Nielsen? 


Uma amostra de notas de cinco estudantes apresentou os seguintes resultados: 72, 65, 82, 90, 76. Quais 
das seguintes afirmações estão corretas e quais seriam contestadas como demasiadamente genéricas? 


a. A nota média da amostra dos cinco estudantes é 77. 

b. A nota média de todos os estudantes que fizeram o exame é 77. 

c. Uma estimativa da nota média de todos os estudantes que fizeram o exame é 77. 

d. Mais da metade dos estudantes que fizeram esse exame obterá pontos entre 70 e 85. 

e. Se mais cinco estudantes forem incluídos na amostra, suas notas se situarão entre 65 e 90. 


CAPÍTULO 2 


Estatística Descritiva: 
Métodos Tabulares e 
Métodos Gráficos 


ESTATÍSTICA NA PRÁTICA 


A COMPANHIA COLGATE-PALMOLIVE* 
Nova York, NY 


A Companhia Colgate-Palmolive começou como uma pequena loja de sabões e velas em Nova York, em 
1806. Hoje, a empresa emprega mais de 40 mil pessoas que trabalham em mais de 200 países e territórios 
mundo afora. Não obstante ser reconhecida internacionalmente por suas marcas Colgate, Palmolive e Ajax, 
a empresa também comercializa os produtos Mennen, Hill's Science Diet e Hill's Prescription Diet. 

A Companhia Colgate-Palmolive utiliza a estatística em seu programa de garantia da qualidade para os pro- 
dutos como detergentes de uso doméstico. Uma preocupação constante é a satisfação do cliente com a quan- 
tidade do produto na embalagem. Em cada categoria de tamanho, a embalagem é preenchida com a mesma 
quantidade de detergente em termos de peso, mas o volume do produto varia de acordo com a densidade 
do pó. Por exemplo, se a densidade do pó estiver mais concentrada, uma quantidade menor de detergente 
será necessária para atingir o peso especificado na caixa. Em consequência, a embalagem parecerá ter uma 
quantidade menor do produto quando for aberta pelo consumidor. 


* Os autores agradecem a William R. Fowle, gerente de garantia da qualidade da companhia Colgate-Palmolive, por fornecer essa 
“Estatística na Prática”. 
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Para controlar o problema de peso do detergente, estabelecern-se os limites para o intervalo aceitável de 
densidade do pó. Amostras estatísticas são tomadas periodicamente, e a densidade de cada amostra de pó é 
medida. Dados sintetizados são então fornecidos ao pessoal do setor operacional a fim de que as ações corre- 
tivas possam ser tomadas, quando necessário, para manter a densidade dentro das especificações de qualidade 
desejadas, 

A distribuição de frequência e o histograma da densidade de 150 amostras tomadas no período de uma 
semana são exibidos na tabela e na figura que acompanham este texto. Níveis de densidade acima de 0,40 são 
inaceitavelmente altos. A distribuição de frequência e o histograma revelam que a operação cumpre suas dire- 
trizes de qualidade quando todas as densidades são menores ou iguais a 0,40. Gerentes que vissem esses sumá- 
rios estatísticos ficariam satisfeitos com a qualidade do processo de produção do detergente, 

Neste capítulo, você aprenderá os métodos tabulares e os métodos gráficos de estatística descritiva, como 
as distribuições de frequência, gráficos em barras, histogramas, apresentações de ramo-e-folha, tabulações cru- 
zadas e outros. O objetivo desses métodos é sintetizar os dados, de modo que eles possam ser facilmente 
entendidos e interpretados. 


Distribuição de Frequência dos Dados de Densidade 


Densidade Freqüéncia 
0,29-0,30 30 
031-032 75 
033-034 32 
0,35-0,36 9 
037-038 3 
0,39-0,40 l 

Total 150 


Histograma dos Dados de Densidade 


75 


Menos de 1% das amostras 
aproximam-se do nível 
indesejável de 0,40 


Freqüência 
л 
o 
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Como vimos no Capítulo 1, os dados podem ser qualitativos ou quantitativos. Os dados qualitativos uti- 
lizam rótulos ou nomes para identificar categorias de itens semelhantes. Os dados quantitativos usam 
valores numéricos que indicam quantidade. 

O propósito deste capítulo é apresentar os métodos tabulares e os métodos gráficos comumente usa- 
dos para sintetizar tanto os dados qualitativos como os quantitativos. Sumários tabulares e gráficos de dados 
podem ser encontrados em relatórios anuais, artigos de jornais e em estudos de pesquisa. Esse tipo de apre- 
sentação nos é exposto com freqüéncia. Portanto, é importante entender como eles são elaborados e como 
devem ser interpretados. Abordaremos, em primeiro lugar, os métodos tabulares e os métodos gráficos para 
sintetizar dados referentes a uma única variável. A última seção introduz métodos para sintetizar dados quan- 
do a relação entre duas variáveis nos interessa. 

Os modemos softwares estatísticos oferecem extensas capacidades para sintetizar dados e preparar 
apresentações gráficas. O Minitab e o Excel são dois pacotes de software amplamente disponíveis. Nos 
apêndices deste capítulo, mostraremos algumas de suas capacidades. 


Capítulo 2 Estatística Descritiva: Métodos Tabulares e Métodos Gráficos 


2.1 SINTETIZANDO OS DADOS QUALITATIVOS 


A Distribuição de Frequência 


Iniciamos a discussão de como os métodos tabulares e os métodos gráficos podem ser usados para sinte- 
tizar os dados qualitativos com a definição de distribuição de freqüéncia. 


DISTRIBUIÇÃO DE FREQUÊNCIA 
Uma distribuição de fregiiência é um sumário tabular de dados que mostra o número (fregiiência) de 
itens em cada uma das diversas classes não sobrepostas. 


Vamos usar o exemplo seguinte para demonstrar a construção e interpretação de uma distribuição de 
freqüéncia correspondente aos dados qualitativos. Coca-Cola, Coca-Cola Light, Dr. Pepper, Pepsi-Cola е 
Sprite são cinco refrigerantes populares. Suponha que os dados da Tabela 2.1 mostrem o refrigerante sele- 
cionado em uma amostra de 50 compras de refrigerantes. 


Tabela 2.) Dados de uma amostra de 50 compras de refrigerantes 


Coca-Cola Sprite Pepsi-Cola 
Coca-Cola Light Coca-Cola Coca-Cola 
Pepsi-Cola Coca-Cola Light Coca-Cola 
Coca-Cola Light Coca-Cola Coca-Cola 
Coca-Cola Coca-Cola Light Pepsi-Cola 
Coca-Cola Coca-Cola Dr. Pepper 
Dr. Pepper Sprite Coca-Cola 
Coca-Cola Light Pepsi-Cola Coca-Cola Light 
Pepsi-Cola Coca-Cola Pepsi-Cola 
Pepsi-Cola Coca-Cola Pepsi-Cola 
Coca-Cola Coca-Cola Pepsi-Cola 
Dr. Pepper Pepsi-Cola Pepsi-Cola 
Sprite Coca-Cola Coca-Cola 
Coca-Cola Sprite Dr. Pepper 
Coca-Cola Light Dr. Pepper Pepsi-Cola 
Coca-Cola Pepsi-Cola Sprite 
Coca-Cola Coca-Cola Light 


Tabela 2.2 Distribuição de frequência das compras de refrigerantes 


Refrigerante Frequência 
Coca-Cola 19 
Coca-Cola Light 8 
Dr. Pepper 5 
Pepsi-Cola 13 
Sprite 5 
Total 50 


Para desenvolver uma distribuição de freqüéncia desses dados, contamos o número de vezes que cada 
refrigerante aparece na Tabela 2.1. Coca-Cola aparece 19 vezes; Coca-Cola Light, oito; Dr. Pepper, cinco; 
Pepsi-Cola, 13 e Sprite, cinco vezes. Essas contagens encontram-se sintetizadas na distribuição de fre- 
quiência da Tabela 2.2. 


Essa distribuição de freqüéncia fornece um resumo de como as 50 compras de refrigerantes estão dis-. 


tribuídas entre os cinco refrigerantes. Essa síntese fornece mais subsídios que os dados originais apresenta- 
dos na Tabela 2.1. Observando a distribuição de freqüéncia, vemos que a Coca-Cola é a líder; a Pepsi-Cola, 
a segunda; a Coca-Cola Light, a terceira; e Sprite e Dr. Pepper estão empatados em quarto lugar. A distri- 
buição de freqüéncia sintetiza informações sobre a popularidade dos cinco refrigerantes mais vendidos. 
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As Distribuições de Frequência Relativa e de Freqüéncia Percentual 


Uma distribuição de freqüéncia mostra o número (freqüéncia) de itens em cada uma das diversas classes 
não sobrepostas. Entretanto, muitas vezes estamos interessados na proporção, ou porcentagem, dos itens de 
cada classe. A fregiiência relativa de uma classe equivale à fração ou proporção dos itens pertencentes a 
uma classe. Para um conjunto de dados com и observações, a frequência relativa de cada classe pode ser 
determinada da seguinte maneira: 


FREQUÊNCIA RELATIVA Freaiiência da cl 
Freqüéncia relativa de uma classe = EE (2.1) 


A fregiiência percentual de uma classe é a freqüéncia relativa multiplicada por 100. 

Uma distribuição de freqüéncia relativa constitui um sumário tabular de dados que mostra a fre- 
qüéncia relativa correspondente a cada classe. Uma distribuição de freqüéncia percentual sintetiza a 
fregiiência percentual dos dados correspondentes a cada classe. A Tabela 2,3 mostra a distribuição de fre- 
qüéncia relativa e a distribuição de frequência percentual dos refrigerantes. Nessa tabela, observamos que 
a їгедйёпсіа relativa da Coca-Cola é 19/50 = 0,38, a fregiiência relativa da Coca-Cola Light é 8/50 = 0,16 
e assim por diante. A partir da distribuição de fregiiência percentual, vemos que 38% das compras foram 
de Coca-Cola, 16% das compras foram de Coca-Cola Light etc. Podemos notar também que 38% + 26% 
+ 16% = 80% das compras foram dos três principais refrigerantes. 


Gráficos em Barras e em Setores (“Pizza”) 


Um grafo de barras, ou gráfico em barras, é um dispositivo gráfico para descrever os dados qualitativos 
que foram sintetizados em uma distribuição de freqüéncia, em uma distribuição de frequência relativa ou em 
uma distribuição de fregiiência percentual. Em um eixo do gráfico (geralmente, o eixo horizontal), especifi- 
camos os rótulos que são usados para as classes (categorias). Uma escala de freqüéncia, de freqüéncia rela- 
tiva ou de fregiiência percentual pode ser usada para o outro eixo do gráfico (normalmente, o eixo vertical). 


Tabela 2.3 Distribuições de frequência relativa e de frequência percentual das compras de refrigerantes 


Refrigerante Freqüéncia Relativa Frequência Percentual 
Coca-Cola 0,38 38 
Coca-Cola Light 0,16 l6 
Dr. Pepper 0,10 to 
Pepsi-Cola 0,26 26 
Sprite 0,10 to 

Total 1,00 100 


Figura 2.1 Gráfico em barras das compras de refrigerantes 


Frequência 


Coca-Cola Coca-Cola Dr. Pepsi- Sprite 
Light Pepper Cola 


Refrigerantes 
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Então, usando uma barra de largura fixa traçada acima de cada rótulo de classe, estendemos a altura da 


barra até atingirmos a fregiiência, a freqüéncia relativa ou a frequência percentual da classe. Para dados 
qualitativos, as barras devem estar separadas para enfatizar o fato de que cada classe é uma categoria dis- 
tinta. A Figura 2.1 exibe um gráfico em barras da distribuição de freqüéncia correspondente às 50 com- 
pras de refrigerantes. Observe como a representação gráfica mostra que Coca-Cola, Pepsi-Cola e Coca- 
Cola Light são as marcas preferidas. 


O gráfico em setores (“pizza”) constitui outro dispositivo gráfico para representar as distribuições de 


freqüéncia relativa e as distribuições de frequência percentual de dados qualitativos. Para construir um grá- 
fico de pizza, traçamos primeiro um círculo para representar todos os dados. Depois, usamos as fregiiências 
relativas para subdividir o círculo em setores, ou partes, que correspondem à freqüéncia relativa de cada clas- 
se. Por exemplo, uma vez que um círculo tem 360 graus e a Coca-Cola exibe uma freqüéncia relativa de 
0,38, o setor do gráfico de pizza que detém o rótulo Coca-Cola consiste em 0,38 X 360 = 136,8 graus. о 
setor do gráfico de pizza que possui o rótulo Coca-Cola Light consiste em 0,16 x 360 = 57,6 graus. Cálculos 
idênticos para as outras classes produzem o gráfico em setores da Figura 2.2. Os valores numéricos mostra- 
dos para cada setor podem ser frequências, freqiiéncias relativas ou frequências percentuais. 


Figura 2.2 Gráfico em setores ("pizza") das compras de refrigerantes 


Coca-Cola 
3896 


Pepsi-Cola 


2696 


NOTAS E COMENTÁRIOS 


Freqüentemente o número de classes de uma distribuição de freqüéncia é igual ao número de catego- 
rias encontradas nos dados, como ocorre com os dados de compras de refrigerantes apresentados nesta 
seção. Os dados envolvem somente cinco marcas de refrigerantes, e uma classe de distribuição de fre- 
qüéncia distinta foi definida para cada uma delas. Dados que incluíssem todos os refrigerantes exigi- 
riam muitas categorias, a maioria das quais teria um número muito pequeno de compras. Muitos esta- 
tísticos recomendam que as classes com frequências menores sejam agrupadas em uma classe conjun- 
ta denominada “outros”. Classes com fregiiências iguais a 5% ou menos seriam, na maioria das vezes, 
tratadas dessa maneira. 

A soma das freqüéncias em qualquer distribuição de freqüéncia sempre corresponde ao número de 
observações. A soma das frequências relativas em qualquer distribuição de frequência relativa sempre 
corresponde a 1,00, e a soma das porcentagens em uma distribuição de frequência percentual sem- 
pre corresponde a 100. 


Exercícios 


Métodos 


1. 


А resposta a шпа questáo tem trés alternativas: A, B e C. Uma amostra de 120 respostas fornece 60 
А, 24 B e 36 C. Mostre as distribuições de freqüéncia e de frequência relativa. 
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2. Dada a seguinte distribuição de freqüéncia relativa: 
Classe Frequência Relativa 
A 0,22 
B 0,18 
[e 0,40 
D 
a. Qual é a freqüéncia relativa da classe D? 
b. O tamanho total da amostra é 200. Qual é a freqüéncia da classe D? 
c. Mostre a distribuição de frequência. 
d. Mostre a distribuição de freqüéncia percentual. 
3, Um questionário fornece as respostas: 58 sim, 42 não e 20 sem opinião. 
a. Na construção de um gráfico de pizza, quantos graus teria a seção que representa as respostas afir- 
mativas? 
b. Quantos graus teria a seção do gráfico que apresenta as respostas negativas? 
c. Construa um gráfico de pizza. 
d. Construa um gráfico em barras. 
Aplicações 
4. Os quatro programas de televisão de maior audiência nos Estados Unidos foram CSI, ER, Everybody 
Loves Raymond e Friends (Nielsen Media Research, 11 de janeiro de 2004). Seguem-se os dados que 
indicam os programas preferidos para uma amostra de 50 telespectadores: ` 
CSI Friends CSI CSI CSI 
CSI CSI Raymond ER ER 
Friends CSI ER Friends CSI 
ER ER Friends CSI Raymond 
CSI Friends CSI CSI Friends 
ER ER ER Friends Raymond 
CSI Friends ` Friends CSI Raymond 
Friends Friends Raymond Friends CSI 
Raymond Friends ER Friends CSI 
CSI ER CSI Friends ER 
a. Esses dados sáo qualitativos ou quantitativos? 
b. Forneça as distribuições de freqüéncia e de freqüéncia percentual. 
c. Construa um gráfico em barras e um gráfico em setores ("pizza"). 
d. Com base na amostra, qual programa de televisão tem a maior audiência? Qual é o segundo 
colocado? 
5. Em ordem alfabética, os seis sobrenomes mais comuns nos Estados Unidos são Brown, Davis, 


Johnson, Jones, Smith e Williams (Time Almanac 2001). Suponha que uma amostra de 50 indivíduos 
com um desses sobrenomes forneca os seguintes dados: 


Brown Williams Williams Williams Brown 
Smith Jones Smith Johnson Smith 
Davis Smith Brown Williams Johnson 
Johnson Smith Smith - . Johnson Brown 
Williams Davis Johnson Williams Johnson 
Williams Johnson Jones Smith Brown 
Johnson Smith Smith Brown Jones 
Jones Jones Smith Smith Davis 
Davis Jones Williams Davis Smith 
Jones Johnson Brown Johnson Davis 


Sintetize os dados construindo o seguinte: 

a. As distribuições de freqüéncia relativa e percentual. 

b. Um gráfico em barras. 

c. Um gráfico em setores. 

d. Com base nesses dados, quais são os três sobrenomes mais comuns? 
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Tabela 2.4 Os oito livros de administração em capa flexível mais vendidos 


* The 7 Habits of Highly Effective People 

* Investing for Dummies 

* The Ernst & Young Tax Guide 2000 

* The Millionaire Next Door 

* The Motley Fool Investment Guide 

* Rich Dad, Poor Dad 

* The Wall Street Journal Guide to Understanding Money and Investing 
* What Color is Your Parachute? 2000 


6. Os oito livros de Administração em capa mole mais vendidos estão relacionados na Tabela 2.4 
(Business Week, 3 de abril de 2000). Suponha que uma amostra de compras de livros forneça os 
seguintes dados: 


7 Habits Dad 7 Habits Millionaire Millionaire WSJ Guide 
Motley Millionaire Tax Guide 7 Habits Dad Dummies 
Millionaire Motley Dad Dad Parachute Dad 

Dad 7 Habits WSJ Guide WSJ Guide WSJ Guide 7 Habits 
Motley WSJ Guide Millionaire 7 Habits Millionaire Millionaire 
Millionaire 7 Habits Millionaire 7 Habits Motley Motley 
Motley 7 Habits Dad Dad Dad Dad 

7 Habits WSJ Guide Tax Guide Millionaire Motley Tax Guide 
Motley Motley Millionaire Millionaire Dad Dummies 
Millionaire Millionaire Millionaire Dad Millionaire Dad 


a. Construa as distribuições de frequência e de freqüéncia percentual desses dados. Agrupe os livros 
que têm uma freqüéncia igual a 5% ou menos em uma categoria denominada “outros”, 

b. Classifique os livros mais vendidos. 

c. Quais porcentagens das vendas representam The Millionaire Next Door е Rich Dad, Poor Dad? 


7. O Leverock's Waterfront Steakhouse, em Maderia Beach, Flórida, usa um questionário para pergun- 
tar aos clientes como eles avaliam o atendimento dos garçons, a qualidade das refeições, os drinques, 
os preços e o ambiente do restaurante. Cada característica é avaliada de acordo com uma escala que 
varia de excelente (E), ótimo (О), bom (B), médio (M) a fraco (F). Utilize a estatística descritiva para 
sintetizar os seguintes dados coletados sobre a qualidade das refeições. Qual é a sua impressão a res- 
peito das avaliações da qualidade das refeições no restaurante? 


B E о B M E о Е о 
о Е Е м Е B M E E 
о M B E о Е о Е Е 
Е B M E о Е Е B о 


8. Os dados apresentados a seguir referem-se a uma amostra de 55 integrantes do Hall da Fama do Beisebol, 
em Cooperstown, Nova York. Cada observação indica a posição principal em que os integrantes do Hall 
da Fama jogavam: arremessador (A), receptor (R), primeira base (1), segunda base (2), terceira base (3), 
interbase (I), campo externo esquerdo (E), campo externo central (C) e campo externo direito (D). 


о M 
E о 
Е 


= шшш 
ti m uo tr 


E A C R 2 A D 1 I I 1 E A D A 
A A A D C I E D A С C A A D A 
2 3 A К E A 1 C A A A I 1 E D 
D 1 2 R H 3 R 2 E A 


а. Use as distribuições de frequência e de freqüéncia relativa para sintetizar os dados. 

b. Qual posicáo contribui com mais integrantes para o Hall da Fama? 

c. Qual posicáo contribui com menos integrantes para o Hall da Fama? 

d. Qual posição de outfield! (E, C ou D) contribui com mais integrantes para о Hall da Fama? 
e. Compare os infielders? (1, 2, 3 e I) com os outfielders (E, C e D). 


1 NT: Outfield — parte mais distante do campo, onde jogam os três jogadores (esquerda, centro e direita) (ou outfielders) (beisebol). 
2 NT: Infielder — jogadores que jogam no “diamante”, ou seja, a parte mais próxima do campo delimitada pelas bases. Jogam nessa 
área o receptor, primeira, segunda e terceira bases, o interbase e o arremessador (beisebol). 
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9. Cerca de 60% dos negócios de pequeno e médio portes são negócios de família. Uma pesquisa reali- 
zada pela TEC International Inc. perguntou a chief executive officers (CEOs) de empresas familiares 
como eles se tornaram CEOs (The Wall Street Journal, 6 de dezembro de 2003). As respostas foram 
que o CEO herdou o negócio, o CEO construiu o negócio, ou o CEO foi contratado pela empresa 
familiar. Uma amostra de 26 CEOs de negócios de família forneceu os seguintes dados a respeito de 
como eles se tornaram CEOs. 


Construiu Construiu Construiu Herdou 
Herdou Construiu Herdou Construiu 
Herdou Construiu Construiu Construiu 
Construiu Foi contratado Foi contratado Foi contratado 
Herdou Herdou Herdou Construiu 
Construiu Construiu Construiu Foi contratado 
Construiu Herdou 


а. Forneça uma distribuição de freqüéncia. 

b. Forneça uma distribuição de fregiiência percentual. 

c. Construa um gráfico em barras. 

d. Qual porcentagem de CEOs de negócios de família tornaram-se CEOs porque herdaram a empre- 
sa? Qual é a principal razão para uma pessoa tornar-se o CEO de um negócio de família? 


10. Uma pesquisa de satisfação do cliente realizada pela Merrill Lynch em 2001 solicitou aos clientes 
para indicarem quão satisfeitos eles estavam com seus serviços de consultoria financeira. As respos- 
tas dos clientes foram codificadas de 1 a 7, e 1 indicava “absolutamente em nada satisfeito” e 7, 
“extremamente satisfeito”. Suponha que os dados a seguir sejam de uma amostra de 60 respostas refe- 
rentes a um consultor financeiro em particular. 


tA O tA QS A 
aulas 
с шоч ROO 
чачу Ф о Ф 
uoo 
ла Ф Ф tA tA 
QN ON M M ч 
жо чл осо м 
OO euo 
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a, Explique por que esses dados sáo qualitativos. | 

b. Forneça uma distribuição de freqüéncia e uma distribuição de fregiiência relativa desses dados. 

c. Forneça um gráfico em barras. 

d. Com base em seus sumários, comente a respeito da avaliação global que os clientes fazem do con- 
sultor financeiro. 


2.2 SINTETIZANDO OS DADOS QUANTITATIVOS 


A Distribuição de Frequência 


Conforme definimos na Seção 2.1, uma distribuição de fregiiência é um sumário tabular de dados que 
mostra о número (freqiiência) de itens em cada uma das diversas classes não sobrepostas. Essa definição 
vale tanto para os dados quantitativos como para os qualitativos. Entretanto, em relação aos dados quan- 
titativos, devemos ser mais cuidadosos ao definir as classes não sobrepostas a serem usadas na distribui- 
ção de freqüéncia. 

Por exemplo, considere os dados quantitativos apresentados na Tabela 2.5. Esses dados apresentam o 
tempo necessário, em dias, para serem concluídas as auditorias de fim de ano de uma amostra de 20 clien- 
tes da Sanderson and Clifford, uma pequena firma de contabilidade, As três etapas necessárias para defi- 
nir as classes de uma distribuição de frequência com dados quantitativos são: 


1. Determinar o número de classes não sobrepostas. 
2. Determinar a amplitude de cada classe. 
3. Determinar os limites da classe. 
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Vamos demonstrar essas etapas desenvolvendo uma distribuição de freqüéncia dos dados de tempo 
para a conclusão das auditorias apresentados na Tabela 2.5. 


Tabela 2.5 Tempo (em dias) para a conclusão das auditorias de fim de ano 


12 14 19 i8 
15 15 18 17 
20 2/ 22 23 
22 21 33 28 
14 18 16 i3 


Número de classes As classes são formadas especificando-se os intervalos que serão usados para agru- 
par os dados. Como diretriz geral, recomendamos usar entre 5 e 20 classes. Para um número pequeno de 
itens de dados, apenas cinco ou seis classes podem ser empregadas para sintetizar os dados. Para um núme- 
ro maior de itens de dados, geralmente é necessário um número maior de classes. A meta é usar classes sufi- 
cientes para mostrar a variação nos dados, mas não tantas classes a ponto de algumas conterem somente 
alguns itens de dados. Uma vez que o número de itens de dados apresentados na Tabela 2.5 é relativamen- 
te pequeno (п = 20), optamos por desenvolver uma distribuição de fregüéncia com cinco classes. 


Amplitude das classes А segunda etapa na construção de uma distribuição de freqüéncia para dados 
quantitativos é escolher uma amplitude para as classes. Como diretriz geral, recomendamos que a ampli- 
tude seja a mesma para cada uma das classes. Desse modo, a escolha do número de classes e a amplitude 
das classes não são decisões independentes. Um número maior de classes significa menor amplitude de 
classe e vice-versa. Para determinar uma amplitude de classe aproximada, começamos por identificar os 
maiores e os menores valores no conjunto de dados. Então, com o número desejado de classes especifica- 
do, podemos usar a seguinte expressão para estabelecer a amplitude aproximada da classe: 


Maior valor entre os dados — Menor valor entre os dados (2.2) 
Número de classes j 


Amplitude aproximada de classe = 


A amplitude aproximada de classe fornecida pela Equação 2.2 pode ser arredondada para um valor 
mais conveniente, baseado na preferência da pessoa que desenvolve a distribuição de freqüência. Por 
exemplo, a amplitude aproximada de classe 9,28 poderia ser arredondada para 10, simplesmente porque 
10 é uma classe mais conveniente de usar para representar uma distribuição de freqüência. 

Em relação ao conjunto de dados que envolve o tempo para a conclusão das auditorias de fim de ano, 
o maior valor é 33 e o menor, 12. Uma vez que decidimos sintetizar os dados com cinco classes, usando 
a Equação 2.2 obtemos uma amplitude aproximada de classe igual a (33 — 12)/5 = 4,2. Portanto, decidi- 
mos arredondar para cima e usar uma amplitude de classe de cinco dias na distribuição de freqüéncia. 

Na prática, o námero de classes e a amplitude aproximada de classe sáo determinados pelo método de 
tentativa-e-erro. Assim que um número possível de classes é escolhido, a Equação 2.2 é usada para se 
encontrar a amplitude aproximada de classe. O processo pode ser repetido para um número diferente de 
classes. Por fim, o analista utiliza o julgamento para determinar a combinação do número de classes e a 
amplitude de classe que provê a melhor distribuição de freqüéncia para sintetizar os dados. 

Com relação aos dados de tempo para a conclusão das auditorias apresentados na Tabela 2.5, depois 
de decidirmos usar cinco classes, cada uma das quais com uma amplitude de cinco dias, a próxima tarefa 
é especificar os limites de classe para cada uma das cinco classes. 


Limites de Classe Оѕ limites de classe devem ser escolhidos de modo que cada uma das observações 
pertença a uma e somente uma classe. O limite inferior de classe identifica o menor valor de dados possí- 
vel atribuído à classe. O limite superior de classe identifica o maior valor de dados possível atribuído à 
classe. Ao desenvolver distribuições de freqüéncias para dados qualitativos, não precisamos especificar os 
limites de classe porque cada item de dados situa-se naturalmente em uma classe distinta. Mas, quando se 
trata de dados quantitativos, por exemplo, os tempos para a conclusão das auditoria apresentados na Tabela 
2.5, os limites de classe são necessários para determinar o lugar a que pertence cada valor de dados. 


Usando os dados do tempo para a conclusão das auditorias apresentados na Tabela 2.5, escolhemos 10 
dias como o limite inferior de classe e 14 dias como o limite superior de classe para a primeira classe. Essa 
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classe é denotada como 10-14 na Tabela 2.6. O menor valor de dados, 12, está incluído na classe 10-14. 
Escolhemos, então, 15 dias como o limite inferior de classe e 19 como o limite superior de classe para a 
classe seguinte. Continuamos a definir os limites inferiores e superiores para obtermos um total de cinco 
classes: 10-14, 15-19, 20-24, 25-29 e 30-34. O maior valor de dados, 33, está incluído na classe 30-34. A 
diferença entre os limites inferiores de classes adjacentes é a amplitude de classe. Usando os dois primei- 
ros limites inferiores de classe, 10 e 15, vemos que a amplitude de classe é 15 — 10 = 5. 

Uma vez determinados o número de classes, a amplitude de classe e os limites de classe, urna distri- 
buição de freqü&ncia pode ser obtida contando-se o número de valores de dados que pertencem a cada uma 
das classes. Por exemplo, os dados da Tabela 2.5 mostram que quatro valores — 12, 14, 14 e 13 — perten- 
cem à classe 10-14, Desse modo, a freqüéncia para a classe 10-14 é 4. Prosseguindo com esse processo de 
contagem para as classes 15-19, 20-24, 25-29 e 30-34, obtemos a distribuição de freqüéncia da Tabela 2.6. 
Usando essa distribuicáo de freqüéncia, podemos observar o seguinte: 


1. Os tempos mais freqüentes para a conclusão das auditorias encontram-se na classe de 15-19 dias. 
Oito dos 20 tempos para auditoria pertencem a essa classe. 


2. Somente uma auditoria necessitou de mais de 30 dias. 


Outras conclusões são possíveis, dependendo dos interesses da pessoa que visualiza a distribuição de 
frequência. O mérito de uma distribuição de freqüéncia é que ela fornece insights? a respeito dos dados 
que não são facilmente obtidos quando se observam os dados em sua forma original não organizada. 


Tabela 2.6 Distribuição de frequência para os dados de tempo para a conclusão das auditorias 


Tempo para a Conclusão das Auditorias (dias) Freqüéncia 
10-14 
15-19 
20-24 
25-29 
30—34 


Total 20 


|- оле 


Ponto médio da classe Ет algumas aplicações, queremos conhecer os pontos médios das classes em 
uma distribuição de frequência para os dados quantitativos. O ponto médio da classe é o valor interme- 
diário entre os limites superior e inferior da classe. Para os dados de tempo para a conclusão das audito- 
rias, os cinco pontos médios são 12, 17, 22, 27 e 32. 


As Distribuições de Frequência Relativa e de Frequência Percentual 


Definimos as distribuições de freqüéncia relativa e de fregiiência percentual para os dados quantitativos da 
mesma maneira que o fazemos para os dados qualitativos. Primeiramente, lembre-se de que a freqüéncia 
relativa é a proporção das observações pertencentes a uma classe. Com л observações, 


nanni А Fregüéncia da classe 
Freqüéncia relativa de uma classe — 
n 


a fregiiência percentual de uma classe é a fregiiência relativa multiplicada por 100. 

Baseando-se nas freqüéncias de classe da Tabela 2.6, sendo n = 20, a Tabela 2.7 mostra a distribuição 
de freqüéncia relativa е a distribuição de frequência percentual correspondente aos dados de tempo para а 
conclusão da auditoria. Observe que 0,40 das auditorias, ou seja, 40%, necessitaram de 15 a 19 dias. 
Somente 0,05 das auditorias, ou seja, 57%, necessitaram de 30 ou mais dias. Novamente, interpretações e 
insights adicionais podem ser obtidos usando-se a Tabela 2.7. 


3 NT: Insight — compreensão repentina, em geral intuitiva, de suas próprias atitudes e comportamentos, de um problema, de uma 
situação (psicologia). 
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Tabela 2.7 Distribuições de frequência relativa e percentual dos dados de tempo 
para a conclusão das auditorias 


Tempo para a Conclusão 


das Auditorias (dias) Frequência Relativa Frequência Percentual 
10-14 0,20 20 
15-19 0,40 40 
20-24 0,25 25 
25-29 0,10 10. 
30-34 0,05 5 
Total 1,00 100 


Gráficos de Dispersáo Unidimensional 


Um dos sumários de dados mais simples é o gráfico de dispersão unidimensional (dot plot). Um eixo 
horizontal mostra o intervalo dos dados. Cada valor é representado por um ponto localizado acima do eixo. 
A Figura 2.3 representa o gráfico de dispersão unidimensional dos dados de tempo para a conclusão das 
auditorias apresentados na Tabela 2.5. Os trés pontos localizados acima de 18 no eixo horizontal indicam 
que um tempo de auditoria de 18 dias ocorreu três vezes. Os gráficos de dispersão unidimensional exibem 
os detalhes dos dados e são úteis para comparar a distribuição dos dados de duas ou mais variáveis. 


Histograma 


Uma apresentação gráfica bastante comum de dados quantitativos é o histograma. Esse sumário gráfico 
pode ser preparado para dados que foram anteriormente sintetizados em uma distribuição de fregiiência, de 
fregiiência relativa ou de fregiência percentual. Um histograma é construído colocando-se a variável 
de interesse no eixo horizontal, e a freqüéncia, a freqüéncia relativa ou a freqüéncia percentual no eixo ver- 
tical. A frequência, a frequência relativa ou a freqüéncia percentual de cada classe é mostrada desenhan- 
do-se um retângulo cuja base é determinada pelos limites da classe no eixo horizontal e cuja altura é a fre- 
qüéncia, a freqüéncia relativa ou a freqüéncia percentual correspondentes. 

A Figura 2.4 corresponde a um histograma dos dados de tempo para a conclusão das auditorias. Observe 
que a classe que tem a maior freqüéncia é mostrada pelo retângulo que aparece acima da classe correspon- 
dente a 15-19 dias. A altura do retângulo revela que a freqüéncia dessa classe é 8. Um histograma da distri- 
buição de freqüéncia relativa ou percentual desses dados se assemelharia ao histograma da Figura 2.4, exce- 
tuando-se que o eixo vertical seria rotulado com valores de freqüéncia relativa ou percentual. 

Como mostra a Figura 2.4, os retângulos adjacentes de um histograma se tocam. Diferentemente de um 
gráfico em barras, um histograma não contém nenhuma separação natural entre os retângulos de classes 
adjacentes. Esse formato é a convenção habitual para os histogramas. Uma vez que as classes correspon- 
dentes aos dados de tempo para a conclusão das auditorias são estabelecidas como 10-14, 15-19, 20-24, 25- 
29 e 30-34, poderia parecer que há a necessidade de intervalos de uma unidade de 14 para 15, de 19 para 
20, de 24 para 25 e de 29 para 30. Esses intervalos são eliminados quando se constrói um histograma. À eli- 
minação dos intervalos entre as classes em um histograma dos dados de tempo para a conclusão das audi- 
torias ajuda a mostrar que todos os valores entre o limite inferior da primeira classe e o limite superior da 
última classe são possíveis. 


Figura 2.3 Gráfico de dispersão unidimensional (dot plot) dos dados de tempo 
para a conclusão das auditorias 


е 
. | е . 
* ө ө ө ө е ө ө ө ө ө о . e e 
L- — L — 1 — 
10 15 20 25 30 35 


Tempo рага a Conclusão das Auditorias (dias) 


31 


Estatística Aplicada à Administração e Economia 


Figura 2.4 Histograma dos dados de tempo para a conclusão das auditorias 


Freqüéncia 


— Mo) «л oO c 0 


10-14 15-19 2024 25-29 30-34 


Tempo para a Conclusáo das Auditorias (dias) 


Uma das utilidades mais importantes de um histograma é fornecer informagóes sobre a forma, ou for- 
mato, de uma distribuição. A Figura 2.5 contém quatro histogramas construídos a partir de distribuições 
de freqüéncia relativa. O painel A mostra o histograma de um conjunto de dados moderadamente inclina- 
do para a esquerda. Diz-se que um histograma é inclinado para a esquerda se sua cauda se estende bem à 
esquerda. Esse histograma é típico para a representação de pontuações obtidas em exames, com nenhuma 
pontuação acima de 100%, a maioria das pontuações acima de 70% e somente algumas pontuações real- 
mente baixas. O painel B mostra o histograma de um conjunto de dados moderadamente inclinado para a 
direita. Diz-se que um histograma é inclinado para a direita se sua cauda se estende bem à direita. Um 
exemplo desse tipo de histograma seria o utilizado para representar dados como os preços de moradias, 
algumas casas muito caras criam a assimetria na cauda direita. 

O painel C exibe um histograma simétrico. Em um histograma simétrico, a cauda esquerda espelha a 
forma da cauda direita. Histogramas para dados encontrados em aplicações jamais são perfeitamente simé- 
tricos, mas, para muitas aplicações, o histograma pode ser ligeiramente simétrico. Dados para pontuações 
no exame SAT, altura e peso das pessoas etc. produzem histogramas ligeiramente simétricos. O painel D 
revela um histograma fortemente inclinado para a direita. Esse histograma foi construído a partir de dados 
sobre a quantidade de compras efetuadas por clientes no decorrer de um dia em uma loja de vestuário femi- 
nino. Dados de aplicações em negócios e economia freqüentemente produzem histogramas inclinados para 
a direita. Por exemplo, dados sobre preços de casas, salários, quantidade de compras etc. frequentemente 
resultam em histogramas inclinados para a direita. 


Distribuições Cumulativas 


Uma variação da distribuição de frequência que produz outro tipo de sumário tabular de dados quantitati- 
vos é a distribuição de freqüéncia cumulativa. A distribuição de freqüéncia cumulativa usa o número de 
classes, amplitudes de classes e limites de classe que foram desenvolvidas para a distribuição de freqüén- 
cia, Entretanto, em vez de mostrar a freqüéncia de cada classe, a distribuição de frequência cumulativa 
indica o número de itens de dados que possuem valores menores ou iguais ao limite superior de cada clas- 
se. As duas primeiras colunas da Tabela 2.8 apresentam a distribuição de freqüéncia cumulativa dos dados 
de tempo para a conclusão das auditorias. 

Para entender como as freqüéncias cumulativas são determinadas, considere a classe com a descrição 
“menor ou igual a 24”. A fregiência cumulativa dessa classe é simplesmente a soma das freqüéncias de 
todas as classes que possuem valores menores ou iguais a 24. Em relação à distribuição de fregiiência da 
Tabela 2.6, a soma das frequências correspondentes às classes 10-14, 15-19 e 20-24 indica que há 4 + 8 + 
5 = 17 observações menores ou iguais a 24. Portanto, a freqüéncia cumulativa dessa classe é 17. Além 
disso, a distribuição de frequência cumulativa apresentada na Tabela 2.8 indica que quatro auditorias foram 
concluídas em 14 dias ou menos, e que 19 auditorias foram concluídas em 29 dias ou menos. 


4 NT: O SAT (Scholastic Aptitude Test) é um exame usado pelas universidades norte-americanas como parte do processo de seleção 
de estudantes para a admissão ao curso superior; ele é realizado sete vezes por ano, envolvendo matemática e inglês. 
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Figura 2.5 Histograma mostrando diferentes níveis de assimetria 
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Como observação final, notamos que uma distribuição de frequência relativa cumulativa aponta а 
proporção de itens de dados, e que uma distribuição de fregiiência percentual cumulativa mostra a por- 
centagem de itens de dados com valores menores ou iguais ao limite superior de cada classe. A distribui- 
ção de freqüéncia relativa cumulativa pode ser calculada somando-se as freqüéncias relativas existentes na 
distribuição de frequência relativa ou dividindo-se as freqüéncias cumulativas pelo número total de itens. 
Utilizando а última abordagem, encontramos as frequências relativas cumulativas na coluna 3 da Tabela 
2.8 dividindo-se as freqüéncias cumulativas da coluna 2 pelo número total de itens (и = 20). As frequên- 
cias percentuais cumulativas foram novamente calculadas multiplicando-se as freqüéncias relativas por 
100. As distribuições de freqüéncia relativa cumulativa e de frequência percentual cumulativa mostram que 
0,85 das auditorias, ou 85%, foram concluídas em 29 dias ou menos, 0,95 das auditorias, ou 95%, foram 
concluídas em 29 dias ou menos, e assim por diante. 


Tabela 2.8 Distribuições de frequência cumulativa, de frequência relativa cumulativa e 
de frequência percentual cumulativa dos dados de tempo para a conclusão das auditorias 


Tempo para a 


Conclusão Freqüéncia Freqüéncia Frequência 

das Auditorias (dias) Cumulativa Relativa Cumulativa Percentual Cumulativa 
Menor ou igual a 14 4 0,20 20 

Menor ou igual a 19 12 0,60 60 

Menor ou igual a 24 17 0,85 85 

Menor ou igual a 29 19 0,95 95; 


Menor ou igual a 34 20 1,00 100 
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Ogivas 


O gráfico de uma distribuição cumulativa, chamado ogiva, mostra os valores dos dados no eixo horizon- 
tal e as frequências cumulativas, as freqüéncias relativas cumulativas ou as frequências percentuais cumu- 
lativas no eixo vertical. A Figura 2.6 ilustra uma ogiva correspondente às freqüéncias cumulativas dos 
dados de tempo para a conclusáo das auditorias da Tabela 2.8. 

A ogiva é construída assinalando-se um ponto correspondente à freqüéncia cumulativa de cada classe. 
Uma vez que as classes correspondentes aos dados de tempo para a conclusão das auditorias são 10-14, 
15-19, 20-24 etc., intervalos de uma unidade aparecem de 14 para 15, de 19 para 20 e assim por diante. 
Esses intervalos são eliminados assinalando-se pontos intermediários entre os limites da classe. Desse 
modo, 14,5 é usado para a classe 10-14, 19,5 é usado para a classe 15-19 e assim por diante. A classe 
“menor ou igual a 14" com uma freqüéncia cumulativa igual a 4 é exposta na ogiva da Figura 2.6 pelo ponto 
localizado em 14,5 no eixo horizontal e 4 no eixo vertical. À classe “menor ou igual a 19” com uma fre- 
qüéncia cumulativa igual a 12 é indicada pelo ponto localizado em 19,5 no eixo horizontal e 12 no eixo ver- 
tical. Observe que um ponto adicional é assinalado na extremidade esquerda da ogiva. Esse ponto inicia a 
ogiva, mostrando que não há valores de dados abaixo da classe 10-14. Ele é assinalado em 9,5 no eixo hori- 
zontal e O no eixo vertical. Os pontos assinalados são conectados por linhas retas para preencher a ogiva. 


Figura 2.6 Ogiva dos dados de tempo para a conclusão das auditorias 


20 


Frequência Cumulativa 
o 


— LL — LLL. Las 
0 5 10 15 20 25 30 35 


Tempo para a Conclusáo das Auditorias (dias) 


NOTAS E COMENTÁRIOS 


1. Um gráfico em barras e um histograma são fundamentalmente iguais; ambos são representações gráfi- 
cas dos dados em uina distribuição de freqüéncia. Um histograma é apenas um gráfico em barras sem 
nenhuma separação entre as barras. Para certos dados quantitativos discretos, uma separação entre as 
barras também é apropriada. Considere, por exemplo, o número de disciplinas nas quais um estudante 
universitário está matriculado. Os dados podem assumir somente valores inteiros. Valores intermediá- 
rios, como 1,5; 2,73 etc., não são possíveis. Com dados quantitativos contínuos, entretanto, como os 
dados de tempo para a conclusão das auditorias da Tabela 2.5, uma separação entre as barras não é 
apropriada. 

2. Os valores apropriados para os limites de classe com dados quantitativos dependem do nível de preci- 
são dos dados. Por exemplo, com os dados de tempo para a conclusão das auditorias da Tabela 2.5 os 
limites usados foram valores inteiros. Se os dados fossem arredondados para o décimo de dia mais pró- 
ximo (por exemplo, 12,3; 14,4 etc.), então os limites seriam declarados em décimos de dias. Por exem- 
plo, a primeira classe seria 10,0-14,9. Se os dados fossem registrados para o centésimo de dia mais pró- 
ximo (por exemplo, 12,34; 14,45 etc.), os limites seriam declarados em centésimos de dias. Por exem- 
plo, a primeira classe seria 10,00-14,99. 

3. Uma classe aberta requer somente um limite inferior de classe ou um limite superior de classe. Por 
exemplo, nos dados de tempo para a conclusão das auditorias apresentados na Tabela 2.5, suponha que 
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duas das auditorias tenham tomado 58 e 65 dias, respectivamente. Em vez de prosseguir com as clas- 
ses de amplitude 5, como ocorre com as classes 35-39, 40-44, 45-49 etc., poderíamos simplificar a dis- 
tribuição de freqüéncia para mostrar uma classe aberta de “35 ou mais”, Essa classe teria uma fregiiên- 
cia igual a 2. Muito frequentemente, a classe aberta aparece no lado superior da distribuição. Às vezes, 
uma classe aberta aparece no lado inferior da distribuição e, ocasionalmente, essas classes aparecem 
em ambos os lados. 


4. A última entrada em uma distribuição de frequência cumulativa sempre é igual ao número total de 
observações. A última entrada em uma distribuição de freqiiência relativa cumulativa sempre é igual a 
1,00 e a última entrada em uma distribuição de frequência percentual cumulativa sempre é igual а 100. 
Exercícios 
Métodos 
11. Considere os seguintes dados: 
19 2 is 16 16 qe 
DA INTERNET 
24 24 25 19 16 E 
19 18 19 21 12- кш 
16 17 18 23 25 
20 23 16 20 19 
24 26 15 22 24 
20 22 24 22 20 
а, Desenvolva uma distribuição de freqüéncia usando classes de 12-14, 15-17, 18-20, 21-23 e 24-26. 
b. Desenvolva uma distribuição de frequência relativa e uma distribuição de frequência percentual 
usando as classes apresentadas no item (a). р 
I2. Considere a seguinte distribuição de freqüéncia: AUTOTESTE 
Classe Freqüéncia 
10-19 i0 
20-29 14 
30-39 i7 
40-49 7 
50-59 . 2 
Construa uma distribuição de freqüéncia cumulativa e uma distribuição de freqüéncia relativa 
cumulativa. 
13. Construa um histograma e uma ogiva dos dados do Exercício 12. 
14, Considere os seguintes dados: 
8,9 10,2 11,5 7,8 10,0 12,2 13,5 141 10,0 12,2 
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5 
a. Construa um gráfico de dispersáo unidimensional (dot plot). 
b. Construa uma distribuição de freqüéncia. 
c. Construa uma distribuição de freqüéncia percentual. 
Aplicacóes 
15. A equipe administrativa de um consultório médico estudou os tempos de espera dos pacientes que 


chegam ao consultório com um pedido de atendimento de emergência. Os seguintes dados de tempos | AUTOTESTE 
de espera em minutos foram coletados no período de um mês: 


2 5 10124 4 5 17 118 9 8 12216 8 7 13 18 3 
Utilize classes de 0-4, 5-9 etc. para resolver as seguintes questões: 


a. Mostre a distribuição de freqüéncia. 
b. Mostre a distribuição de fregiiência relativa. 
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16. 


17. 


18. 


c. Mostre a distribuição de fregiiência cumulativa. 

d. Mostre a distribuição de frequência relativa cumulativa. 

e. Qual proporção de pacientes que necessitam de atendimento de emergência enfrenta um tempo de 
espera de nove minutos ou menos? 

Considere as seguintes distribuições de freqüéncia. A primeira distribuição de frequência fornece uma 
aproximação da renda bruta ajustada anual nos Estados Unidos (Internal Revenue Service, março de 
2003). A segunda distribuição de freqüéncia mostra as notas de exames dos estudantes de um curso 
universitário de Estatística. 


Renda (US$ 1.000) Freqüéncia (milhões) Notas nos Exames Frequência 


0-24 60 Abaixo de 30 2 
25-49 33 30-39 5 
50-74 20 40-49 6 
75-99 6 50-59 13 

100-124 4 60—69 32 
125-149 2 70-79 78 
150-174 | 80—89 43 
175-199 | 90-99 21 

Total 127 Total 200 


a. Desenvolva um histograma dos dados de renda anual. Qual evidéncia de assimetria ele apresenta? 
Essa assimetria faz sentido? Explique. 

b. Desenvolva um histograma dos dados de notas de exames. Qual evidéncia de assimetria ele apre- 
senta? Explique. 

c. Desenvolva um histograma dos dados do Exercício 11. Qual evidéncia de assimetria ele apresen- 
ta? Qual é a forma geral da distribuição? 

A Mendelsohn Media Research apresentou dados de pesquisa sobre a quantidade anual de compras 

domésticas feitas por famílias com uma renda anual de US$ 75.000 ou mais (Money, 2001). Suponha 

que os seguintes dados de uma amostra de 27 famílias indiquem a quantidade de dólares que elas gas- 

taram no ano passado em livros e revistas. 


280 496 382 202 287 
266 119 10 385 135 
475 255 379 267 24 

42 25 283 110 423 
160 123 16 243 363 


a. Construa uma distribuição de fregiiência e uma distribuição de freqüéncia relativa dos dados. 

b. Forneça um histograma. Comente a respeito da forma da distribuição. 

c. Comente a respeito dos gastos anuais em livros e revistas feitos pelas famílias da amostra. 

A Wageweb realiza pesquisas de dados salariais e apresenta os sumários em seu site. А empresa regis- 
trou que os salários anuais dos vice-presidentes de marketing variavam de US$ 85.090 a US$ 190.054 
(Wageweb.com, 12 de abril de 2000). Suponha que os dados a seguir sejam de uma amostra dos salá- 
rios anuais de 50 vice-presidentes de marketing. Os dados sáo em milhares de dólares: 


145 95 148 112 132 
140 162 118 170 144 
145 127 148 165 138 
173 113 104 141 142 
116 178 123 141 138 
127 143 134 136 137 
155 93 102 154 142 
134 165 123 124 124 
138 160 157 138 131 
114 135 151 138 157 


a. Quais sáo os salários mais baixos e quais os mais altos? 

b. Use uma amplitude de classe de US$ 15.000 e prepare sumários tabulares dos dados salariais anuais. 
c. Qual proporcáo dos salários anuais sáo de US$ 135.000 ou menos? 

d. Qual porcentagem dos salários anuais sáo superiores a US$ 150.000? 

e. Prepare um histograma. Comente a respeito da forma da distribuicáo. 
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19. O trabalho de classificação de e-mails não-solicitados e spam afeta a produtividade de funcionários de 


20. 


escritório. Uma pesquisa levada a efeito pela InsightExpress monitorou funcionários de escritório 
para determinar a quantidade de tempo não-produtivo por dia dedicado a e-mails não-solicitados e 
spam (USA Today, 13 de novembro de 2003). Os dados a seguir fornecem uma amostra de tempo em 
minutos dedicado a essa tarefa: 


2 4 8 4 
8 1 2 32 
12 1 5 7 
5 5 3 4 
24 19 4 14 


Sintetize os dados construindo o seguinte: 

a. Uma distribuição de fregiiência (Classes 1-5, 6-10, 11-15, 16-20 etc.). 

b. Uma distribuição de freqüéncia relativa. 

c. Uma distribuição de frequência cumulativa. 

d. Uma distribuição de freqüéncia relativa cumulativa. 

e. Uma ogiva. 

f. Qual porcentagem de funcionários de escritório gasta cinco minutos ou menos em e-mails não-soli- 
citados e spam? Qual porcentagem de funcionários de escritório gastam mais de dez minutos por 
dia nessa tarefa? 

As 20 maiores turnês musicais e o preço médio dos ingressos de shows na América do Norte são mos- 

trados a seguir. A lista baseia-se em dados fornecidos à publicação de negócios Polistar por promo- 

tores de concertos e gerentes de eventos (Associated Press, 21 de novembro de 2003). 


Turnê Musical Preço do Ingresso Turnê Musical Preço do ingresso 
Bruce Springsteen $72,40 Toby Keith $37,76 
Dave Matthews Band 44.1 James Taylor 44,93 
Aerosmith/Kiss 69,52 Alabama 40,83 
Shania Twain 61,80 Harper/Johnson 33,70 
Fleetwood Mac 78,34 50 Cent 38,89 
Radiohead 39,50 Steely Dan 36,38 
Cher 64,47 Red Hot Chili Peppers 56,82 
Counting Crows 36,48 REM. 46,16 
Timberlake/Aguilera 7443 American Idols Live 39,11 
Mana 46,48 Mariah Carey 56,08 


Sintetize os dados construindo o seguinte: 

a. Uma distribuição de freqüéncia e uma distribuição de freqüéncia percentual. 

b. Um histograma. 

c. Qual concerto teve em média o preço de ingresso mais caro? Qual concerto teve em média o preço 
de ingresso mais barato? 

d. Comente sobre o que os dados indicam a respeito da média dos preços de ingresso das maiores tur- 
nês musicais. 


21. O Nielsen Home Technology Report apresentou informações sobre a tecnologia dos aparelhos domés- 


ticos e sua utilização por pessoas de 12 anos ou mais. Os dados a seguir referem-se ao número de 
horas de uso de computadores pessoais durante uma semana para uma amostra de 50 pessoas. 


41 15 104 5,9 34 57 1,6 6,1 30. 3,7 
3,1 48 2,0 148 54 42 39 41 11,1 3,5 
41 41 8,8 5,6 43 33 71 10,3 62 7,6 
10,8 2,8 9,5 129 121 07 40 9,2 44 57 

72 61 57 5,9 ал 39 34 3,1 6,1 3,1 

Sintetize os dados construindo o seguinte: 

a. Uma distribuição de frequência (use uma amplitude de classe de três horas). 

b. Uma distribuição de freqüéncia relativa. 

c. Um histograma. 

d. Uma ogiva. 

e. Comente sobre o que os dados indicam a respeito do uso de computadores pessoais em casa. 
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2.3 ANÁLISE EXPLORATÓRIA DOS DADOS: 
A APRESENTACÁO DE RAMO-E-FOLHA 


As técnicas de análise exploratória dos dados consistem em cálculos aritméticos simples e em gráficos 
fáceis de desenhar que podem ser usados para sintetizar dados rapidamente. Uma dessas técnicas, deno- 
minada apresentação de ramo-e-folha, pode ser usada para mostrar simuitaneamente tanto a ordem de 
classificação como a forma dos dados. * 

Para ilustrar o uso da apresentação de ramo-e-folha, considere os dados apresentados na Tabela 2.9. 
Esses dados resultam de um teste de aptidáo composto de 150 questóes aplicado a 50 pessoas entrevista- 
das recentemente para ocupar um cargo na Haskens Manufacturing. Os dados indicam o námero de ques- 
tões respondidas corretamente. 

Para desenvolver uma apresentação de ramo-e-folha, organizamos primeiramente os dígitos à esquer- 
da de cada valor de dados à esquerda de uma linha vertical. À direita da linha vertical, registramos o últi- 
mo dígito de cada valor de dados. 


Tabela 2.9 Número de questões respondidas corretamente em um teste de aptidão 
112 72 69 97 107 
^ 73 92 76 86 73 
ARQUIVO 126 128 118 127 124 
DA INTERNET 82 104 132 134 83 
Aptest 92 108 96 100 92 
115 76 91 102 81 
95 141 81 80 106 
84 119 113 98 75 
68 98 115 106 95 
too 85 94 106 119 


Com base па linha superior de dados da Tabela 2.9 (112, 72, 69, 97 e 107), as cinco primeiras 
entradas para se construir uma apresentacáo de ramo-e-folha seriam as seguintes: 


6| 9 
7:2 


Por exemplo, o valor de dados 112 mostra os dígitos à esquerda, 11, à esquerda da linha e o último dígi- 
to, 2, à direita da linha. De maneira similar, o valor de dados 72 mostra o dígito à esquerda, 7, à esquerda 
da linha e o último dígito, 2, à direita da linha. Continuando a colocar o último dígito de cada valor de 
dados na linha correspondente ao(s) seu(s) dígito(s) à esquerda, obtemos o seguinte: 
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Com essa organizacáo dos dados, é simples classificar os dígitos de cada linha na devida ordem de clas- 
sificação. Essa operação produz a apresentação de ramo-e-folha mostrada a seguir: 
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14 


Os números à esquerda da linha vertical (6, 7, 8, 9, 10, 11, 12, 13 e 14) formam o ramo, e cada dígito à 
direita da linha vertical é uma folha. Por exemplo, considere a primeira linha com um valor de ramo 6 e 
folhas 8 e 9. 


6189 


Isso indica que dois valores de dados têm um primeiro dígito 6. As folhas mostram que os valores de dados 
são 68 e 69. Similarmente, a segunda linha 


71233566 


indica que seis valores de dados têm um primeiro dígito 7. As folhas mostram que os valores de dados são 
72, 73, 73, 75, 76 e 76. 

Para nos concentrarmos na forma indicada na apresentação de ramo-e-folha, vamos usar um retângu- 
lo contendo as folhas de cada ramo. Com essa operação, obtemos o seguinte: 


6/8 9 


7|2 
8 0 


- 
- 
юв |юо ре 


m m 
ow 
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Ао girarmos essa página 90 graus no sentido anti-horário, obtemos uma imagem dos dados que é similar 
a um histograma com as classes 60—69, 70—79, 80—89 e assim por diante. 
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Embora a apresentação de ramo-e-folha pareça oferecer a mesma informação dada por um histograma, 
ela tem duas vantagens principais: 


1. A apresentação de ramo-e-folha é mais fácil de construir manualmente, 


2. Dentro de um intervalo de classe, a apresentação de ramo-e-folha fornece mais informações que o 
histograma porque o ramo e a folha mostram os dados reais. 


Da mesma forma que uma distribuição de frequência ou um histograma não possuem um número abso- 
luto de classes, também uma apresentação de ramo-e-folha não tem um número absoluto de linhas ou 
ramos. Se acharmos que nossa apresentação de ramo-e-folha condensou demasiadamente os dados, pode- 
mos facilmente estender a apresentação usando dois ou mais ramos para cada dígito à esquerda. Por exem- 
plo, para usarmos dois ramos para cada dígito à esquerda, colocaríamos todos os valores de dados que ter- 
minam em 0, 1, 2, 3 e 4 em uma linha e todos os valores de dados que terminam em 5, 6, 7, 8 e 9 em uma 
segunda linha. A apresentação de ramo-e-folha estendida apresentada a seguir ilustra essa abordagem: 


6/8 9 
71233 
715 6 6 
8101123 4 
815 6 
9112224 
9/5 5 6788 
10/0024 
10/66 67 8 
11/2 3 
15 5 8899 
12 |4 
1216 7 8 
13/2 4 

13 

1411 


Note que os valores 72, 73 е 73 têm folhas no intervalo 0—4 е são mostrados com o primeiro valor de 
ramo 7. Os valores 75, 76 e 76 têm folhas no intervalo 5-9 e são mostrados no segundo valor de ramo 7. 
Essa apresentação de ramo-e-folha estendida é similar a uma distribuição de freqüéncia com intervalos 
65—69, 70-74, 75—79 e assim por diante. 

O exemplo anterior mostrou uma apresentação de ramo-e-folha de dados contendo até três dígitos. 
Apresentações de ramo-e-folha para dados com mais de três dígitos são possíveis. Por exemplo, conside- 
re os dados a seguir sobre o número de hambúrgueres vendidos por um restaurante de fast-food durante 
cada uma das 15 semanas: 


1.565 1.852 1.644 1.766 1.888 1.912 2.044 1.812 
1,790 1.679 2.008 1.852 1.967 1.954 1.733 


Uma apresentação de ramo-e-folha desses dados é a seguinte: 


Unidade de folha = 10 


15| 6 

16/4 7 
1713 6 9 
18115 5 8 
19|1 5 6 
2010 4 


Note que um único dígito é usado para definir cada folha e que somente os três primeiros dígitos de cada 
valor de dados foram usados para construir a apresentação. Na parte superior da apresentação, especifica- 
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mos a unidade de folha = 10. Para ilustrarmos a maneira de interpretar os valores da apresentação, consi- 
dere o primeiro ramo, 15, e sua folha associada, 6. Combinando esses números, obtemos 156. Para recons- 
truirmos uma aproximação dos valores de dados originais, devemos multiplicar esse número por 10, que 
é o valor da unidade de folha. Desse modo, 156 X 10 = 1.560 é uma aproximação do valor de dados ori- 
ginal utilizado para construir a apresentação de ramo-e-folha. Embora não seja possível reconstruir o valor 
de dados exato dessa apresentação de ramo-e-folha, a convenção de usar um único dígito para cada folha 
possibilita a construção de apresentações de ramo-e-folha para dados que contêm um número grande de 
dígitos. Para apresentações de ramo-e-folha em que a unidade de folha não é mostrada, presume-se que a 
unidade de folha seja igual a 1. 


Exercícios 

Métodos 
22. Construa uma apresentação de ramo-e-folha dos seguintes dados: É 

70 72 75 64 58 83 80 82 

76 75 68 65 57 78 85 72 
23. Construa uma apresentação de ramo-e-folha dos seguintes dados: 

11,3 9,6 10,4 2:5 8,3 10,5 10,0 

9,3 8,1 77 7,5 8,4 6,3 8,8 

24. Construa uma apresentação de ramo-e-folha dos seguintes dados. Use a unidade de folha 10. 

1.161 1.206 1.478 1.300 1.604 1.725 1.361 1.422 

1.221 1.378 1.623 1.426 1.557 1.730 1.706 1.689 
Aplicações 


25. Um psicólogo desenvolveu um novo teste de inteligência para adultos. O teste foi aplicado em 20 
indivíduos, e os seguintes dados foram obtidos: 


114 99 131 124 117 102 


98 104 144 151 132 106 
Construa uma apresentação de ramo-e-folha dos dados. 


106 
125 


127 
122 


119 
118 


115 
118 


26. A American Association of Individual Investors realiza uma pesquisa anual de discount brokers5 Os 
preços cobrados que são apresentados a seguir correspondem a uma amostra de 24 discount brokers 
(AAII Journal, janeiro de 2003). Os dois tipos de negócio são uma transação de 100 ações a US$ 50 por 
ação, o qual conta com a assistência de corretores, e um negócio on-line de 500 ações a US$ 50 


por ação. 
Negócio de 100 Negócio Negócio de 100 Negócio 
Ações a US$ 50 Online de Ações a US$ 50 On-line de 
por Ação 500 Ações a por Ação 500 Ações a 
Auxiliado por US$ 50 por Auxiliado por US$ 50 por 
Corretor Corretores Ação Corretor Corretores Ação 
Accutrade 30,00 29,95 Merrill Lynch Direct 50,00 29,95 
Ameritrade 24,99 10,99 Muriel Siebert 45,00 14,95 
Banc of America 54,00 24,95 NetVest 24,00 14,00 
Brown & Co. 17,00 5,00 Recom Securities 35,00 12,95 
Charles Schwab 55,00 29,95 Scottrade 17,00 7,00 
CyberTrader 12,95 9,95 Sloan Securities 39,95 19,95 
E*TRADE Securities 49,95 14,95 Strong Investments 55,00 2495 
First Discount 35,00 19,75 TD Waterhouse 45,00 17,95 
Freedom Investments 25,00 15,00 T. Rowe Price 50,00 19,95 
Harrisdirect 40,00 20,00 Vanguard 48,00 20,00 
Investors National 39,00 62,50 Wall Street Discount 29,95 19,95 
MB Trading 9.95 10,55 York Securities 40,00 36,00 


5 NT: Discount broker — As corretoras chamadas discount broker, ou de descontos, oferecem serviço de operação (compra e venda 
de futuros e opções da bolsa de valores) com foco na agilidade e na prática de preços. Elas apenas executam as ordens dos clientes, 
sem análise de papéis (economia). 
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27. 


а. Arredonde os precos de compra e venda para o valor em dólares mais próximo e desenvolva uma 
apresentação de ramo-e-folha das 100 ações a US$ 50 por ação. Comente sobre o que aprendeu a 
respeito dos preços da transação auxiliada por corretores. 

b. Arredonde os preços da transação para o valor em dólares mais próximo e desenvolva uma apre- 
sentação de ramo-e-folha estendida das 500 ações on-line a US$ 50 por ação. Comente sobre o que 
aprendeu a respeito dos preços do negócio on-line. 

Os preços por ação das 30 empresas que compõem a Dow Jones Industrial Average (Média Industrial 

Dow Jones) são mostrados a seguir (The Wall Street Journal, 9 de abril de 2004): 


Empresa Preço E Empresa Preço 
(em dólares) (em dólares) 
por ação por ação 
Alcoa $34 Honeywell $35 
Altria Group 55 А IBM 93 
American Express 52 Intel 27 
American International 76 Johnson & Johnson 5I 
Boeing 4l ЈР. Morgan Chase 4l 
Caterpillar 82 McDonald's 29 
Citigroup 52 Merck 45 
Coca-Cola 51 Microsoft 25 
Disney 26 Pfizer 36 
DuPont 43 Procter & Gamble 106 
ExxonMobil 42 SBE Communications 24 
General Electric 31 3M 82 
General Motors 47 United Technologies 90 
Hewlett-Packard 23 Verizon 37 
Home Depot 36 Wal-Mart 57 


28. 


a. Desenvolva uma apresentação de ramo-e-folha. 
b. Use a apresentação de ramo-e-folha para responder às seguintes questões: 

* O que o agrupamento dos dados da apresentação de ramo-e-folha Ihe diz a respeito dos preços por 
ação das 30 empresas que compõem a Dow Jones? 

* Qual é a faixa de preço por ação da maioria das empresas? 

* Quantas empresas têm o preço de US$ 36 por ação? 

* Qual é o preço por ação que aparece mais freqüentemente? 

* Qual preço por ação seria considerado relativamente elevado? Qual porcentagem de empresas têm 
preços por ação nessa faixa? Quais empresas têm preços por ação nessa faixa e qual é o preço por 
ação de cada uma? 

€. Use The Wall Street Journal ou outra publicação de negócios para descobrir o preço atual por ação 
de cada uma das 30 empresas que compõem a Dow Jones Industrial Average. Construa uma apre- 
sentação de ramo-e-folha desses dados e use a apresentação para comentar a respeito de quaisquer 
alterações nos preços por ação desde abril de 2004. 

A minimaratona (20,92 km) de 2004, em Naples, Flórida, contou com 1.228 inscritos (The Naples Daily 

News, 17 de janeiro de 2004). A competição foi realizada em seis grupos distribuídos por faixa etária. 

Os dados a seguir mostram as idades de uma amostra de 40 indivíduos que participaram da maratona. 


49 33 40 37 56 
44 46 57 55 32 
50 52 43 64 40 
46 24 30 37 43 
31 43 50 36 61 
27 44 35 31 43 
52 43 66 31 50 
72 26 59 21 47 


a. Mostre uma apresentação de ramo-e-folha estendida. 

b. Qual grupo etário teve o maior número de corredores? 

c. Qual idade ocorreu mais freqüentemente? 

d. Um artigo publicado no Naples Daily News destacou o número de corredores que “estavam na 
faixa etária dos 20 anos”. Qual porcentagem dos corredores estava “na faixa etária dos 20 anos”? 
Na sua opinião, qual era o foco do artigo? 
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2.4 TABULACÓES CRUZADAS E DIAGRAMAS DE DISPERSÁO 


Até agora, neste capítulo, focalizamos os métodos tabulares e gráficos utilizados para sintetizar os dados 
de uma variável a cada vez. Freqüentemente os gerentes ou tomadores de decisóes necessitam de méto- 
dos tabulares e gráficos que lhes ajudem a compreender a relação entre duas variáveis. As tabulações cru- 
zadas e os diagramas de dispersão são dois desses métodos. 


Tabulação Cruzada 


A tabulação cruzada é um sumário tabular de dados para duas variáveis. Vamos ilustrar a utilização de 
uma tabulação cruzada considerando a seguinte aplicação baseada em dados da Zagat's Restaurant 
Review. Dados sobre a avaliação da qualidade do restaurante e o preço das refeições foram coletados de 
uma amostra de 300 restaurantes localizados na região de Los Angeles. A Tabela 2.10 mostra os dados 
referentes aos dez primeiros restaurantes. Dados sobre a avaliação da qualidade do restaurante e preço típi- 
co das refeições são apresentados. A avaliação da qualidade é uma variável qualitativa com categorias de 
avaliação bom, ótimo e excelente. O preço das refeições é uma variável quantitativa que geralmente vai de 
US$ 10 a US$ 49. 

Uma tabulação cruzada dos dados dessa aplicação é exibida na Tabela 2.11. Os rótulos das margens 
esquerda e superior definem as classes das duas variáveis. Na margem esquerda, os rótulos das linhas 
(bom, ótimo e excelente) correspondem às três classes da variável avaliação da qualidade. Na margem 
superior, os rótulos das colunas (US$ 10-19, US$ 20-29, US$ 30-39 e US$ 40-49) correspondem às qua- 
tro classes da variável preço das refeições. Cada restaurante da amostra apresenta uma avaliação da 
qualidade e o preço de uma refeição. 

Desse modo, cada restaurante da amostra está associado a uma célula que aparece em uma das linhas e 
em uma das colunas da tabulação cruzada. Por exemplo, o restaurante 5 é identificado como aquele que tem 
uma avaliação de qualidade ótima e preço das refeições igual a US$ 33. Esse restaurante pertence à célula 
da linha 2, coluna 3, da Tabela 2.11. Ao construir uma tabulação cruzada, simplesmente contamos o núme- 
ro de restaurantes que pertencem a cada uma das células existentes na tabela de tabulação cruzada. 


Tabela 2.10 Avaliação da qualidade e preço das refeições de 300 restaurantes de Los Angeles 


Restaurante Avaliação da Qualidade Preço das Refeições (US$) 
| Вогп 18 
2 Ошто 22 
3 Bom 28 
4 Excelente 38 
5 Ótimo 3 
6 Bom 28 
7 Ótimo 19 
8 Ótimo Wu 
9 Ótimo 23 

10 Вот 13 


Revendo a Tabela 2.11, observamos que a maioria dos restaurantes da amostra (64) tem uma avaliação 
ótima e preço de refeições na faixa de US$ 20-29. Somente dois restaurantes têm uma avaliação excelente e 
preço de refeições na faixa de US$ 10-19. Podem ser feitas interpretações idênticas das outras fregiiências. 
Além disso, observe que as margens direita e inferior da tabulação cruzada apresentam separadamente as dis- 
tribuições de freqüéncia relativas à avaliação da qualidade do restaurante e preço das refeições. Da distribui- 
ção de freqüéncia na margem direita, notamos que os dados sobre as avaliações da qualidade mostram 84 
restaurantes bons, 150 restaurantes ótimos e 66 restaurantes excelentes. Similarmente, a margem inferior 
mostra a distribuição de fregiiência da variável preço das refeições. 

Dividindo os totais indicados na margem direita da tabulação cruzada pelo total correspondente a essa 
coluna, obtemos uma distribuição de freqüéncia relativa e percentual da variável avaliação da qualidade. 
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Avaliacáo da Qualidade Freqüéncia Relativa Freqüéncia Percentual 
Bom ,28 28 
Ótimo 50 50 
Excelente 22 22 
Total 1,00 100 


Tabela 2.11 Tabulação cruzada da avaliação da qualidade e preço das refeições de 
300 restaurantes de Los Angeles 


Preço das Refeições 
Avaliação da Qualidade $10-19 $20-29 $30-39 $40— 49 Total 
Bom 42 40 2 0 84 
Ótimo 34 64 46 6 150 
Excelente 2 14 28 22 66 
Total 78 118 76 28 300 


Da distribuição de freqüéncia percentual, observamos que 28% dos restaurantes foram avaliados como 
bons, 50% foram avaliados como ótimos e 22% foram avaliados como excelentes. 

Ao dividir os totais da linha inferior da tabulação cruzada pelo total correspondente a essa linha, obte- 
mos as distribuições de freqüéncia relativa e percentual da variável preço das refeições. 


Preço da Refeição Frequência Relativa Frequência Percentual 
$10-19 0,26 26 
$20—29 0,39 39 
$30-39 0,25 25 
$40—49 0,09 9 
Total 1,00 100 


Note que a soma dos valores de cada coluna nào coincide exatamente com o total da coluna, porque os 
valores somados são arredondados. Da distribuição de freqüéncia percentual, notamos que 26% dos pre- 
ços das refeições encontram-se na classe de menor preço (US$ 10-19), 39% encontram-se na classe de 
preço mais elevado e assim por diante. 

As distribuições de fregiiência e de frequência relativa construídas a partir das margens de uma tabu- 
lação cruzada fornecem informações a respeito de cada uma das variáveis individualmente, mas nada 
esclarecem a respeito da relação entre as variáveis. O principal mérito de uma tabulação cruzada reside 
no insight que ela oferece a respeito da relação entre as variáveis. Uma revisão da tabulação cruzada da 
Tabela 2.11 revela que os preços de refeições mais elevados estão associados com os restaurantes de qua- 
lidade mais elevada, e que os preços de refeições mais baixos estão associados com os restaurantes de 
qualidade mais baixa. 

O ato de transformarmos em porcentagens de linha ou em porcentagens de coluna os lançamentos efe- 
tuados em uma tabulação cruzada pode fornecer-nos mais insight a respeito da relação entre as duas variá- 
veis. Quanto às porcentagens de linha, os resultados de dividirmos cada freqüéncia apresentada na Tabela 
2.11 pelo total de sua respectiva linha são mostrados na Tabela 2.12. Cada linha dessa última tabela refe- 
re-se a uma distribuição de fregiência percentual do preço das refeições correspondente a uma das catego- 
rias de avaliação da qualidade. Da análise dos restaurantes com avaliação da qualidade mais baixa (bom), 
observamos que as maiores porcentagens referem-se aos restaurantes mais baratos (50% têm preços de 
refeições de US$ 10-19 e 47,6%, de US$ 20-29). Dos restaurantes com avaliação da qualidade mais alta 
(excelente), observamos que as maiores porcentagens referem-se aos restaurantes mais caros (42,4% têm 
preços de refeições de US$ 30-39, e 33,4% têm preços de refeições de US$ 40-49). Desse modo, continua- 
mos a notar que as refeições mais caras estão associadas aos restaurantes com qualidade mais elevada. 

As tabulações cruzadas são amplamente usadas quando se quer examinar a relação entre duas variá- 
veis. Na prática, os relatórios finais de muitos estudos estatísticos incluem um grande número de tabelas 
de tabulação cruzada. Na pesquisa dos restaurantes de Los Angeles, a tabulação cruzada baseia-se em uma 
variável qualitativa (avaliação da qualidade) e em uma variável quantitativa (preço das refeições). 
Tabulações cruzadas também podem ser desenvolvidas tanto quando ambas as variáveis são qualitativas 
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como quando sáo quantitativas. Entretanto, quando sáo usadas variáveis quantitativas, devemos primeira- 
mente criar classes para os valores da variável. Assim, no exemplo dos restaurantes agrupamos os preços 
das refeições em quatro classes (US$ 10-19, US$ 20-29, US$ 30-39 e US$ 40-49). 


Tabela 2.12 Porcentagens de linha para cada categoria de avaliação da qualidade 


Preço da Refeição 
Avaliação da Qualidade — $10—19 $20-29 $30-39 $40-49 Total 
Bom 50,0 47,6 24 00 100 
Ótimo 2,7 427 30,6 40 100 
Excelente 3,0 21,2 424 33,4 100 


O Paradoxo de Simpson 


Freqüentemente, os dados de duas ou mais tabulações cruzadas são combinados ou agregados para produzir 
uma tabulação cruzada resumida que mostre como as duas variáveis estão relacionadas. Nesses casos, deve- 
mos ser cuidadosos ao tirar conclusões a respeito da relação entre as duas variáveis da tabulação cruzada 
agregada. Em alguns casos, a conclusão baseada na tabulação cruzada agregada pode ser completamente 
invertida se olharmos para os dados não-agregados, uma ocorrência que é conhecida como paradoxo 
de Simpson. A fim de oferecermos uma ilustração do paradoxo de Simpson, vamos considerar um exemplo 
envolvendo a análise de um veredito dado por dois juízes em dois tipos de tribunais. 

Os juízes Ron Luckett e Dennis Kendall presidiram os julgamentos na Common Pleas Courté e na 
Municipal Court (Tribunal Municipal) durante os últimos três anos. Alguns dos veredictos que eles profe- 
riram sofreram apelação. Na maioria desses casos, os tribunais de apelação confirmaram os veredictos ori- 
ginais, mas, em alguns casos, esses veredictos foram revertidos. Foi desenvolvida uma tabulação cruzada 
correspondente a cada juiz, tendo como base duas variáveis: Veredicto (confirmado ou revertido) e Tipo 
de Tribunal (Common Pleas e Municipal). Suponha que as duas tabulações cruzadas tenham sido então 
combinadas agregando-se os dados sobre o tipo de tribunal. A tabulação cruzada agregada resultante con- 
teria duas variáveis: Veredicto (confirmado ou revertido) e Juiz (Luckett ou Kendall). Essa tabulação cru- 
zada mostra o número de apelações em que o veredicto foi confirmado e o número em que o veredicto foi 
revertido para ambos os juízes. A tabulação cruzada a seguir mostra esses resultados juntamente com as 
porcentagens de coluna entre parênteses com cada valor. 


Juiz 
Yeredicto Luckett Kendail Total 
Confirmado 129 (86%) 110 (8896) 239 
Revertido 21 (1496) 15 (1296) 36 
Tota! (96) 150 (10096) 125 (10096) 275 


Uma revisão das porcentagens de coluna mostra que 14% dos veredictos do juiz Luckett foram rever- 
tidos, mas somente 12% dos veredictos do juiz Kendall foram revertidos. Desse modo, poderíamos con- 
cluir que o juiz Kendall realiza um trabalho melhor, porque uma porcentagem maior dos seus veredictos 
é confirmada. Entretanto, surge um problema com essa conclusão. 

As tabulações cruzadas a seguir mostram os casos julgados pelos juízes Luckett e Kendall nos dois tri- 
bunais; as porcentagens de coluna também são indicadas entre parênteses com cada valor. 


Juiz Luckett Juiz Kendall 
Apelações Corte Apelacóes Corte 
Veredicto Comuns Municipal Total Veredicto Comuns Municipal Total 
Confirmado 29 (9196) 100 (8596) 129 Confirmado 90 (9096) 20 (80%) 110 
Revertido 3 (996) 18 (1596) 21 Revertido 10 (1096) 5 (2096) 15 
Total (96) 32 (100%) 118 (100%) 150 Total (96) 100 (10096) 25 (10096) 125 


$ NT: Common Pleas Court: 1. Tribunal de Primeira Instância. Em alguns estados norte-americanos, um tribunal que tem jurisdição 
geral e original sobre questões civis e criminais. 2. Na Inglaterra, antigo tribunal superior com jurisdição sobre questões civis (direito). 
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Da tabulação cruzada e das porcentagens de coluna referentes ao juiz Luckett, notamos que seus vere- 
dictos foram confirmados em 91% nos casos da Corte de Apelação Comum e em 85% dos casos da Corte 
Municipal. Da tabulação cruzada e das porcentagens de coluna referentes ao juiz Kendall, notamos que 
seus veredictos foram confirmados em 90% dos casos da Corte de Apelação Comum e em 80% dos casos 
da Corte Municipal. Comparando as porcentagens de coluna correspondentes aos dois juízes, notamos que 
o juiz Luckett demonstra uma atuação melhor que a do juiz Kendall em ambos os tribunais. Esse resulta- 
do contradiz a conclusão a que chegamos quando agregamos os dados entre os dois tribunais para a tabu- 
lação cruzada original. Parecia então que o juiz Kendall tinha o melhor desempenho, Esse exemplo ilus- 
tra o paradoxo de Simpson. 

A tabulação cruzada original foi obtida agregando-se os dados contidos nas tabulações cruzadas sepa- 
radas referentes aos dois tribunais. Note que, para ambos os juízes, a porcentagem de apelações que resul- 
taram em reversões foi muito mais elevada na Corte Municipal do que na Corte de Apelação Comum. Uma 
vez que o juiz Luckett julgou uma porcentagem maior de seus casos na Corte Municipal, os dados agre- 
gados favoreciam o juiz Kendall, No entanto, quando olhamos para as tabulações cruzadas corresponden- 
tes aos dois tribunais separadamente, o juiz Luckett mostra claramente o melhor desempenho. Dessa 
forma, considerando a tabulação cruzada original, vemos que o tipo de tribunal é uma variável oculta que 
não pode ser ignorada quando se avalia o desempenho dos dois juízes. 

Em virtude do paradoxo de Simpson, precisamos ser especialmente cuidadosos ao tirar conclusões uti- 
lizando dados agregados. Antes de tirar conclusões a respeito da relação entre duas variáveis mostradas 
por uma tabulação cruzada envolvendo dados agregados, você deve investigar se alguma variável oculta 
poderia afetar os resultados. 


Diagramas de Dispersão e Linha de Tendência 


Um diagrama de dispersão é uma apresentação gráfica da relação existente entre duas variáveis, e uma 
linha de tendência é uma linha que fornece uma aproximação da relação. Como ilustração, considere a 
relação publicidade/vendas de uma loja de equipamentos de som em São Francisco. Em dez ocasiões 
durante os três últimos meses, a loja utilizou comerciais de televisão de fins de semana para promover as 
vendas em suas lojas. Os gerentes querem verificar se existe uma relação entre o número de comerciais 
exibidos e as vendas na loja durante a semana seguinte. Dados de amostra correspondentes às dez sema- 
nas, com as vendas expressas em centenas de dólares, são mostrados na Tabela 2.13. A Figura 2,7 apre- 
senta o diagrama de dispersão e a linha de tendência? dos dados da Tabela 2.13. O número de comerciais 
(х) é indicado no eixo horizontal, e as vendas (y) são mostradas no eixo vertical. Para a semana 1, x = 2 e 
y = 50. Um ponto com essas coordenadas é assinalado no diagrama de dispersão. Pontos idênticos são assi- 
nalados para as outras nove semanas. Note que durante duas das semanas foi exibido um comercial, duran- 
te duas das semanas foram exibidos dois comerciais e assim por diante. 

O diagrama de dispersão completo da Figura 2.7 indica uma possível relação entre o número de comer- 
ciais e as vendas. Um maior número de vendas está associado a um maior número de comerciais. A rela- 
ção não é perfeita em termos de que todos os pontos não estão em uma linha reta. Entretanto, o padrão 
geral dos pontos e a linha de tendência sugerem que a relação global é positiva. 


Tabela 2.13 Dados de amostra da loja de equipamentos de som 


Número de Comerciais Vendas ($100s) 
y 
50 
57 
4l 
54 
54 
38 
63 
48 
59 
46 


Semana 


CQ о 0 O0 Ud UN – 
BOR 6C bw лм х 


7 A equação da linha de tendência é y = 4,95x + 36,15. O declive da linha de tendência é 4,95, e o ponto de interseção com y (o ponto 
em que a linha intercepta o eixo y) é 36,15. Discutiremos detalhadamente a interpretação do declive e do ponto de interseção com y 
da linha de tendência linear no Capítulo 12, quando estudaremos as regressões lineares simples. 
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Alguns padrões gerais dos diagramas de dispersão e os tipos de relação que eles sugerem são expostos 
na Figura 2.8. O painel superior esquerdo descreve uma relação positiva similar à do exemplo do número 
de comerciais e vendas, 


Figura 2.7 Diagrama de dispersão e linha de tendência da loja de equipamentos de som 


Vendas ($1005) 


0 | 2 3 4 5 


Nümeros de Comerciais 


Figura 2.8 Tipos de relação representados por diagramas de dispersão 


Relacáo Positiva x Sem Relacáo Aparente x 


Relacáo Negativa x 
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No painel superior direito, o diagrama de dispersão não mostra nenhuma relação aparente entre as variá- 
veis. O painel inferior representa uma relação negativa, em que y tende a decrescer à medida que x aumenta. 


Exercícios 


GE 
e 


Métodos 


29. Os dados a seguir referem-se a 30 observações envolvendo duas variáveis qualitativas, x e y. As cate- 


AUTOTESTE gorias correspondentes a x são A, B e C; as categorias correspondentes a y são 1 e 2. 

Observação x y Observação х y 

| А 16 В 2 
2 B 17 С 
z 3 B 18 B 
ARQUIVO 4 C 2 19 [e 
5 B 20 B 

DA INTERNET 6 c 2 51 С 2 
Crosstab 7 B 22 B 

8 [o 2 23 [e 2 
9 A 24 A 
10 B 25 B 

11 А 26 [e 2 

12 B 27 [o 2 
13 C 2 28 A 
14 [e 2 29 B 

15 [e 2 30 B 2 


а. Desenvolva uma tabulação cruzada dos dados, sendo x a variável linha e y a variável coluna. 
b. Calcule as porcentagens de linhas. ` 

c. Calcule as porcentagens de colunas. 

d. Qual é a relacáo, se houver, entre x e y? 


30. As 20 observações seguintes referem-se a duas variáveis quantitativas, x e y. 


Observação x y Observacáo x y 
| -2 2 T 37 48 
2 -33 49 2 34 -29 
3 2 8 13 9 -18 

; 4 29 -16 14 -33 31 
ARQUIVO à E! M lê E 74 
DA INTERNET 7 -13 27 17 -15 18 
Scatter 8 23 35 18 2 (7 

9 r 5 19 20 = 
10 3 -3 20 E 22 


а, Desenvolva um diagrama de dispersão para а relação entre x e y. 
b. Qual é a relação, se houver, entre x e y? 


Aplicacóes 
31. A tabulação cruzada apresentada a seguir mostra a renda familiar por nível educacional de chefes de 
família (Statistical Abstract of the United States: 2002). 


Renda Familiar ($1.000s) 


Abaixo 25,0- 50,0- 75,0- 100 ou 
Nível Educacional de 25 49,9 74,9 99,9 mais Total 
Sem diploma do ensino médio 9.285 4.093 1.589 541 354 15.862 
Сот diploma do епѕіпо médio 10.150 9.821 6.050 2.737 2.028 30.786 
Superior incompleto 6.01! 8.221 5.813 3.215 3.120 26.380 
Superior completo 2.138 3.985 3.952 2.698 4.748 17.521 
Pós-graduação 8.13 1.497 1.815 1,589 3.765 9.479 


Total 28.397 27.617 19.219 10.780 14.015 100.028 
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32. 


33. 


a. Calcule as porcentagens de linha е identifique as distribuições de freqüéncia percentual de renda 
das famílias em que o chefe da casa tem diploma do ensino médio e das famílias em que o chefe 
da casa tem o grau de bacharel. 

b. Qual porcentagem de famílias chefiadas por pessoas com diploma do ensino médio ganha 
US$ 75.000 ou mais? Qual porcentagem de famílias chefiadas por pessoas que receberam graus de 
bacharel ganham US$ 75.000 ou mais? 

c. Construa histogramas de freqüéncia percentual da renda de família chefiada por pessoas com diplo- 
ma do ensino médio e daquelas chefiadas por pessoas com grau de bacharel? Há alguma relação 
clara entre a renda familiar e o nível educacional? 


Consulte novamente a tabulação cruzada de renda familiar por nível educacional mostrada no 
Exercício 31. 


a. Calcule as porcentagens de coluna e identifique as distribuições de freqüéncia percentual apresen- 
tadas. Qual porcentagem dos chefes de família não têm diploma do ensino médio? 

b. Qual porcentagem das famílias que ganham US$ 100.000 ou mais era chefiada por pessoas que têm 
escolaridade superior ao grau de bacharel? Qual porcentagem das famílias chefiadas por pessoas 
com escolaridade superior ao grau de bacharel ganharam mais de US$ 100.000? Por que essas duas 
porcentagens são diferentes? 

c. Compare as distribuições de freqüéncia percentual relativas às famílias que ganham “menos de 25", 
“100 ou mais” e o “total”. Comente a relação entre a renda familiar e o nível educacional do chefe 
de família. 

Recentemente, a gerência do Oak Tree Golf Course recebeu algumas reclamações sobre o estado dos 

greens? nos campos de golfe. Vários jogadores queixaram-se de que os greens eram muito rápidos. 

Em vez de reagir aos comentários de apenas alguns jogadores, a Golf Association realizou uma pes- 

quisa de 100 golfistas masculinos e femininos. Os resultados da pesquisa estão resumidos a seguir: 


Golfistas Masculinos Golfistas Femininos 

Estado dos greens Estado dos greens 
Handicaps? (Desvantagem) Muito Rápidos Ótimo Handicaps? (Desvantagem) Muito Rápidos Ótimo 
Menos de 15 10 40 Menos de 15 | 9 
15 ou mais 25 25 15 ou mais 39 51 


34. 


a. Combine essas duas tabulações cruzadas em uma que contenha as palavras masculino e feminino 
como rótulos de linha e as palavras muito rápidos e ótimo como rótulos de coluna, Qual grupo mos- 
tra a maior porcentagem de pessoas que dizem que os greens são muito rápidos? 

b. Consulte as tabulações cruzadas iniciais. Dos jogadores com menos handicap (melhores jogado- 
res), qual grupo (masculino ou feminino) exibe a maior porcentagem dos que dizem que os greens 
são muito rápidos? 

c. Consulte as tabulações cruzadas iniciais. Dos jogadores com maiores handicaps, qual grupo (mas- 
culino ou feminino) exibe a maior porcentagem dos que dizem que os greens são muito rápidos? 

d. Quais conclusões você seria capaz de tirar a respeito das preferências de homens e mulheres no que 
se refere à velocidade dos greens? As conclusões que você tira da parte (a) são consistentes quan- 
do comparadas com as partes (b) e (c)? Explique quaisquer inconsistências claras. 

A Tabela 2.14 apresenta dados financeiros de uma amostra de 36 empresas cujos títulos são negocia- 

dos na Bolsa de Valores de Nova York (Investor s Business Daily, 7 de abril de 2000). Os dados sobre 

Vendas/Margens de Lucro/RPL sáo um compósito baseado na taxa de crescimento das vendas da 

empresa, suas margens de lucro e seu retorno sobre o património líquido (RPL). 


8 NT: Greens — A área coberta de relva cuidadosamente tratada ao redor de cada buraco para facilitar a tacada (Golfe). 

9 NT: Handicap — O golfe tem um sistema denominado handicap que possibilita a jogadores de diferentes níveis de habilidade dis- 
putarem uma partida entre si. O handicap possibilita tacadas de “vantagem” ao jogador menos experiente, as quais devem ser des- 
contadas ao final do jogo. Jogadores profissionais jogam com handicap O (Golfe). 
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Tabela 2.14 Dados financeiros de uma amostra de 36 empresas 


Lucro por Acáo Força Relativa Força Relativa Vendas/Margens de 
Empresa (LPA) de Preços do Setor Lucro/Retorno sobre o 
Patrimônio Líquido (RLP) 
Advo 8l 74 B А 
Alaska Air Group 58 17 C 8 
Alliant Tech 84 22 B B 
Atmos Energy 21 9 С Е 
Bank of Am. 87 38 C A 
Bowater PLC 14 46 С р 
Callaway Golf 46 62 B E 
Central Parking 76 18 B С 
Dean Foods 84 7 B [e 
Dole Food 70 54 E [o 
Elec. Data Sys. 72 69 A B 
Fed. Dept. Store 79 21 D B 
Gateway 82 68 A A 
Goodyear 21 9 Е D 
Hanson PLC 57 32 B B 
ICN Pharm. 76 56 А D 
Jefferson Plt. 80 38 D [e 
Kroger 84 24 D A 
Mattel 18 20 Е D 
McDermott 6 6 A [o 
Monaco 97 2l D А 
Murphy Oil 80 62 B B 
Nordstrom 58 57 B [e 
NYMAGIC 17 45 D D 
Office Depot 58 40 B B 
Payless Shoes 76 59 B B 
Praxair 62 32 [o B 
Reebok 3I 72 С Е 
Safeway 91 61 D А 
Teco Energy 49 48 D B 
Texaco 80 3l D С 
US West 60 65 B А 
United Rental 98 12 C A 
Wachovia 69 36 E B 
Winnebago 83 49 D A 
York International 28 14 D B 


Fonte: Investor’ s Business Daily, 7 de abril de 2000. 


35. 


36. 


37. 


a. Prepare uma tabulação cruzada dos dados sobre vendas/margens de lucro/RPL (linhas) e lucro por 
ação (colunas). Use as classes 0-19, 20-39, 40-59, 60-79 e 80-99 para o lucro por aAção. 
b. Calcule as porcentagens de tinha e comente a possível relação entre as variáveis. 


Consulte os dados da Tabela 2.14. 


a. Prepare uma tabulação cruzada dos dados sobre vendas/margens de lucro/RPL e força relativa do 
setor. 

b. Prepare uma distribuição de freqüência dos dados sobre vendas/margens de lucro/RPL. 

c. Prepare uma distribuição de frequência dos dados sobre a força relativa do setor. 

d. Como a tabulação cruzada ajudou a preparar as distribuições de freqüência nas partes (b) e (c)? 


Consulte os dados da Tabela 2.14. 


a. Prepare um diagrama de dispersão dos dados sobre o lucro por ação e força relativa de preços. 

b. Comente a relação, se houver, entre as variáveis. (O significado da avaliação do lucro por ação é 
descrito no Exercício 34. A força relativa de preços é uma medida da variação no preço das ações 
ao longo dos últimos 12 meses. Valores mais elevados indicam maior força.) 

A National Football League avalia os calouros posição por posição em uma escala que varia de 5 a 9. 

As avaliações são interpretadas da seguinte maneira: 8-9 devem começar primeiro ano; 7,0-7,9 devem 

começar; 6,0-6,9 formarão o time reserva e 5,0-5-9 poderão integrar o clube e contribuir, quando 
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necessário. A Tabela 2.15 mostra a posição, peso, velocidade (segundos para percorrer 36,5 m) e as 
classificações de 40 candidados à NFL (USA Today, 14 de abril de 2000). 


a. Prepare uma tabulação cruzada dos dados sobre posição (linhas) e velocidade (colunas). Use clas- 
ses de 4,00-4,49; 4,50-4,99; 5,00-5,49; e 5,50-5,99 para a velocidade. 

b. Comente a relação entre posição e velocidade baseando-se na tabulação cruzada desenvolvida no 
item (a). 

c. Desenvolva um diagrama de dispersão dos dados sobre velocidade e avaliação. Use o eixo vertical 
para avaliação. 

d. Comente a relação, se houver, entre velocidade e avaliação. 


Tabela 2.15 Avaliações da National Football League de 40 candidatos ao draft!0 


Observação Nome Posição Peso (kg) Velocidade Avaliação 
| Peter Warrick Wide receiver! ! 87,99 4,53 9 
2 Plaxico Buress Wide receiver 104,8 4,52 8,8 
3 Sylvester Morris Wide receiver 97,97 4,59 8,3 
4 Travis Taylor Wide receiver 90,26 4,36 8,1 
5 Laveranues Coles Wide receiver 87,09 4,29 8 
6 Dez White Wide receiver 98,88 4,49 7,9 
7 erry Porter Wide receiver 100,24 455 74 
8 Ron Dugans Wide receiver 93,44 4,47 7,l 
9 Todd Pinkston Wide receiver 76,66 437 7 
10 Dennis Northcutt Wide receiver 79,38 4,43 7 
E Anthony Lucas Wide receiver 87,99 451 6,9 
12 Darrell Jackson Wide receiver 89,36 4,56 6,6 
13 Danny Farmer Wide receiver 98,43 46 6,5 
14 Sherrod Gideon Wide receiver 78,47 4,57 6,4 
15 Trevor Gaylor Wide receiver 90,26 4,57 6,2 
lé Cosey Coleman Guard? 46,05 5,38 74 
17 Travis Claridge Guard 37,44 5,18 7 P es 
18 Kaulana Noa Guard 43,79 5,34 6,8 А 
19 Leander Jordan Guard 49,68 5,46 67 ; Гар; 
20 Chad Clifton Guard 51,45 5,18 63 кыс 
2\ Manula Savea Guard 39,71 532 6, ARQUNO 
22 Ryan Johanningmeir Guard 40,61 5,28 6 DAINTERNET 
23 Mark Tauscher Guard 44,24 5,37 6 NFL 
24 Blaine Saipaia Guard 45,60 5,25 6 
25 Richard Mercier Guard 33,80 5,34 5,8 
26 Damion McIntosh Guard 48,78 5,31 5,3 
27 Jeno James Guard 45,15 5,64 5 
28 Al Jackson Guard 37,89 52 5 
29 Chris Samuels Offensive tackle 3 47,41 4,95 8,5 
30 Stockar McDougle Offensive tackle 63,74 5,5 8 
3l Chris McIngosh Offensive tackle 42,88 5,39 7,8 
32 Adrian Klemm Offensive tackle 3925 4,98 7,6 
33 Todd Wade Offensive tackle 47,87 52 73 
34 Marvel Smith Offensive tackle 45,15 5,36 7,1 
35 Michael Thompson Offensive tackle 30,18 5,05 6,8 
36 Bobby Williams Offensive tackle 150,9 5,26 6,8 
37 Darnell Alford Offensive tackle 151,5 5,55 6,4 
38 Terrance Beadles Offensive tackle 141,2 5,15 63 
39 Tutan Reyes Offensive tackle 135,2 5,35 6,1 
40 Greg Robinson-Ran Offensive tackle 151,4 5,59 6 


10 NT: Draft – Seleção de jovens atletas na National Football League (futebol americano). 

11 NT: Wide receiver — Jogador que recebe os lançamentos em linha avançada para conseguir o máximo de jardas à frente (futebol 
americano). 

12 NT: Guard — Um atleta da linha ofensiva (futebol americano). 

13 NT: Offensive tackle — Jogador integrante da primeira linha de ataque, a qual é composta pelos maiores jogadores do time, sendo 
a sua função bloquear a defesa adversária (futebol americano). 
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Resumo 


Um conjunto de dados, mesmo que moderadamente pequeno, com freqüéncia é difícil de ser interpretado 
diretamente na forma em que é coletado. Os métodos tabulares e gráficos fornecem meios de se organizar 
e sintetizar dados de modo que certos padróes sejam revelados e os dados sejam mais facilmente interpre- 
tados. Distribuições de frequência, distribuições de fregiiência relativa, distribuições de freqüéncia percen- 
tual, gráficos em barras e gráficos em setores (“pizza”) foram indicados como procedimentos tabulares e 
gráficos para sintetizar dados qualitativos. Distribuições de freqüéncia, distribuições de frequência relativa, 
distribuições de freqüéncia percentual, histogramas, distribuições de fregiiência cumulativa, distribuições de 
freqüéncia relativa cumulativa, distribuições de frequência percentual cumulativa e ogivas foram apresenta- 
das como meios de sintetizar dados quantitativos. Uma apresentação de ramo-e-folha constitui uma técnica 
de análise exploratória de dados que pode ser usada para sintetizar dados referentes a duas variáveis. O dia- 
grama de dispersão foi exposto como um método gráfico para exibir a relação entre duas variáveis quanti- 
tativas. A Figura 2.9 mostra os métodos tabular e gráfico apresentados neste capítulo. 

Quando se trata de grandes conjuntos de dados, softwares de computador são fundamentais para se 
construir sumários tabulares e gráficos de dados. Nos dois apêndices deste capítulo mostraremos como o 
Minitab e o Excel podem ser usados com essa finalidade. 


Figura 2.9 Métodos tabulares e gráficos para sintetizar dados 


Dados 


Я Dados » * 
Quantitativos 


“Dados 
| Oualitativos 


* Métodos 
* „Gráficos 


Métodos * 
Tabulares ' 


* Distribuição * Gráfico em Barras * Distribuição * Gráficos de Dispersão 
de Frequência * Gráfico em Pizza de Frequência Unidimensional (Dot Plot) 

* Distribuição de * Distribuição de * Histograma 
Freqüéncia Relativa Freqüéncia Relativa * Ogiva 

* Distribuicáo de e Distribuição de * Apresentação de Ramo-e-Folha 
Freqüéncia Percentual Freqüência Percentual 


* Diagrama de Dispersão 


. 


Distribuição de 
Frequência Cumulativa 


* Tabulação Cruzada 


Distribuição de Fregüéncia 
Relativa Cumulativa 


Distribuição de Frequência 
Percentual Cumulativa 


Tabulação Cruzada 
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Glossário 


Dados qualitativos Rótulos ou nomes utilizados para identificar categorias de itens semelhantes. 

Dados quantitativos Valores numéricos que indicam quantidade. 

Distribuição de freqüéncia Sumário tabular dos dados que mostra a fração ou proporção dos valores de 
dados em cada uma das diversas classes náo sobrepostas. 

Distribuição de freqüéncia relativa Sumário tabular dos dados que mostra a fração ou proporção dos 
valores de dados em cada uma das diversas classes não sobrepostas. 

Distribuição de freqüéncia percentual Sumário tabular dos dados que mostra a porcentagem de valores 
de dados em cada uma das diversas classes não sobrepostas. 

Gráfico em barras Dispositivo gráfico para representar dados qualitativos que foram sintetizados em uma 
distribuição de freqüéncia, de frequência relativa ou de frequência percentual. 

Gráfico em setores (“Pizza”) Dispositivo gráfico para apresentar sumários de dados, baseado na subdi- 
visão de um círculo em setores que correspondem à freqüéncia relativa de cada classe. 

Ponto médio da classe O valor intermediário entre os limites de classe superior e inferior. 

Gráficos de dispersão unidimensional (dot plot) Dispositivo gráfico que sintetiza dados por meio do 
número de pontos acima de cada valor no eixo horizontal. 

Histograma Representação gráfica de uma distribuição de freqüéncia, de uma distribuição de frequência 
relativa ou de uma distribuição de freqüéncia percentual de dados quantitativos, a qual é construída 
colocando-se os intervalos de classe no eixo horizontal e as fregiiências, fregiiências relativas ou fre- 
qüéncias percentuais no eixo vertical. 

Distribuição de frequência cumulativa Sumário tabular de dados quantitativos que mostra o número de 
valores de dados menores ou iguais ao limite superior de classe de cada uma das classes. 

Distribuição de freqüéncia relativa cumulativa Sumário tabular de dados quantitativos que mostra a fra- 
ção ou proporção dos valores de dados que são menores ou iguais ao limite superior de classe de cada 
uma das classes. 

Distribuição de frequência percentual cumulativa Sumário tabular de dados quantitativos que mostra a 
porcentagem dos valores de dados que são menores ou iguais ao limite superior de cada uma das classes. 

Ogiva Gráfico de uma distribuição cumulativa. 

Análise exploratória de dados Métodos que utilizam cálculos aritméticos simples e gráficos fáceis de 
desenhar para sintetizar dados rapidamente. 

Apresentação de ramo-e-folha Técnica de análise exploratória de dados que simultaneamente classifica 
pela ordem os dados quantitativos e fornece insight sobre a forma da distribuição. 

Tabulação cruzada Sumário tabular dos dados correspondentes a duas variáveis. As classes de uma variá- 
vel são representadas pelas linhas; as classes da outra variável são representadas pelas colunas. 

Paradoxo de Simpson Conclusões tiradas a partir de duas ou mais tabulações cruzadas que podem ser 
invertidas quando os dados são agregados em uma única tabulação cruzada. 

Diagrama de dispersão Representação gráfica da relação entre duas variáveis quantitativas. Uma variá- 
vel é mostrada no eixo horizontal e a outra variável, no eixo vertical, 

Linha de tendência Linha que fornece uma aproximação da relação entre duas variáveis. 


Fórmulas-Chave 


Freqüéncia Relativa 
Freqüéncia da classe 
n (2.1) 


Amplitude aproximada de classe 
Maior valor dos dados — Menor valor dos dados 
Número de classes (2.2) 
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Exercícios Suplementares 


38. Os cinco veículos mais vendidos em 2003 (nos Estados Unidos) foram a picape Chevrolet 
Silverado/C/K, a picape Dodge Ram, a picape Ford F-Series, o Honda Accord e o Toyota Camry (Motor 
Trend, 2003). Dados de uma amostra de 50 compras de veículos são apresentados na Tabela 2.16. 


Tabela 2.16 Dados de 50 compras de veículos 


Silverado 
Silverado 
Ram 
Silverado 
Ram 
F-Series 
Camry 
F-Series 
Silverado 
Silverado 


Ram Accord Camry 
Silverado Camry Ram 
F-Series Accord Ram 
F-Series F-Series Silverado 
Ram Accord Siiverado 
Ram Silverado Accord 
F-Series F-Series F-Series 
Silverado F-Series F-Series 
Silverado Camry Camry 
F-Series F-Series Accord 


Camry 
F-Series 

' Ram 
Ram 
Camry 
Silverado 
Silverado 
Ram 
F-Series 

‚ Accord 


a. Desenvolva uma distribuição de frequência e de fregiiência percentual. 
b. Qual é a caminhonete mais vendida e qual é o carro de passageiros mais vendido? 
c. Apresente um gráfico em setores (“pizza”). 


39. Cada uma das empresas da Fortune 1000 pertence a um dos diversos setores industriais (Fortune, 17 
de abril de 2000). Segue-se uma amostra de 20 empresas, com suas classificações por setor. 


Empresa 


IBP 

Intel 

Coca-Cola 
Union Carbide 
General Electric ` 
Motorola 

Kellog 

Dow Chemical 
Campbell Soup 
Ralston Purina 


Classificação por Setor 


Alimentos 

Produtos eletrônicos 
Bebidas 

Produtos químicos 
Produtos eletrónicos 
Produtos eletrônicos 
Alimentos 

Produtos químicos 
Alimentos 

Alimentos 


Empresa 


Borden 

McDonnell Douglas 
Morton International 
Quaker Oats 
PepsiCo 

Maytag 

Textron 

Sara Lee 

Harris 

Eaton 


Classificacáo por Setor 


Alimentos 

Indústria aeroespacial 
Produtos químicos 
Alimentos 

Bebidas 

Produtos eletrônicos 
Indústria aeroespacial 
Alimentos 

Produtos eletrônicos 
Produtos eletrônicos 


a. Apresente uma distribuição de freqüéncia mostrando o número de empresas de cada indústria. 
b. Apresente uma distribuição de fregiiência percentual. 
c. Apresente um gráfico em barras dos dados. 


40. Foi feita a seguinte pergunta aos Top 100 Teachers da Golf Magazine: “Qual é a área mais crítica que 
impede os golfistas de atingirem seu pleno potencial?” As respostas possíveis foram a falta de preci- 
são; tacadas de aproximação à bandeira (approach) malfeitas, fraca abordagem mental, falta de força 
física, falta de prática, putting! ruim, jogadas curtas malfeitas e decisões estratégicas ruins. Os dados 
obtidos foram os seguintes (Golf Magazine, fevereiro de 2002): 


Abordagem mental 
Prática 

Força 

Precisão 

Precisão 

Precisão 

Jogada curta 
Prática 
Abordagem mental 
Precisão 
Abordagem mental 
Prática 


Abordagem mental 
Precisão 

Tacadas de aproximação 
Abordagem mental 
Precisão 

Putting 

Força 

Prática 

Jogada curta 
Jogada curta 
Putting 

Putting 


14 NT: Putting — Tacada de curto alcance (golfe). 


Jogada curta орада curta 
Abordagem mental Precisão 
Precisão Jogada curta 
Abordagem mental Precisão 
Jogada curta Força 


Abordagem mental 
Abordagem mental 
Abordagem mental 
Abordagem mental 


Força 
ogada curta 


Jogada curta 
Putting 
Putting 
Forca 
Jogada curta 


Decisóes estratégicas Precisáo 
Abordagem mental Jogada curta 


Força 
Decisões estratégicas 


Abordagem mental Jogada curta 


Precisão 
Abordagem mental Abordagem mental Putting 
Prática ogada curta 


Putting 
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Força Abordagem mental Jogada curta Prática Decisões estratégicas 
Precisão Jogada curta Precisão Prática Putting 

Precisão Jogada curta Precisão Jogada curta Putting 

Precisão Tacadas de aproximação Jogada curta Abordagem mental Prática 

Jogada curta Jogada curta Decisões estratégicas Jogada curta Jogada curta 

Prática Prática Jogada curta Prática ' Decisões estratégicas 
Abordagem mental Decisões estratégicas Decisões estratégicas Força logada curta 
Precisão Prática Prática Prática Precisão 


a. Desenvolva uma distribuição de frequência e uma distribuição de freqüéncia percentual, 
b. Quais áreas críticas impedem com maior fregiiência que os golfistas atinjam seu pleno potencial? 


Tabela 2.17 Valor nominal por ação de títulos da Dow Jones Industrial Average - 


Valor Nominal Valor Nominal 
Empresa por Acáo Empresa por Ação 
AT&T 4,59 Home Depot 7,71 
Alcoa 2,30 Honeywell 11,25 
Altria Group 8,96 IBM 13,37 
American Express 9,04 Intel 5,39 
Boeing 2,92 International Paper 21,37 
Caterpillar 6,18 Johnson & Johnson 7,79 
Citigroup 5,09 J.P. Morgan Chase 20,31 
Coca-Cola 4,57 McDonald's 7,30 
Disney 1,28 Merck 6,89 
Du Pont 4,17 Microsoft 8,49 
Eastman Kodak 9,93 Procter & Garnble 8,80 
ExxonMobil 0,62 SBE Communications 9,69 
General Electric 5,43 3M 14.93 
General Motors 35,15 United Technologies 17,36 
Hewlett-Packard 7,33 Wal-Mart Stores 7,85 


41. 


42. 


Os dados da Tabela 2.17 mostram o valor nominal por ação dos 30 títulos que compõem a Dow Jones 
Industrial Average (Barron's, 10 de margo de 2003). 


a. Construa urna distribuicáo de freqüéncia para sintetizar os dados. Use uma amplitude de classe 6,00. 
b. Desenvolva uma distribuição de freqüéncia relativa. 
c. Construa uma distribuição de freqiência cumulativa. 
d. Construa uma distribuição de frequência relativa cumulativa. 
e. Construa um histograma como uma representação gráfica dos dados. Comente a forma da distri- 
buição. 

Os preços de fechamento de 40 ações ordinárias são apresentados a seguir (Barron's, 10 de março de 

2003). 


29,63 34,00 43,25 8,75 37,88 8,63 7,63 30,38 35,25 19,38 
9,25 16,50 38,00 53,38 16,63 1,25 48,38 18,00 9,38 9,25 
10,00 25,02 18,00 8,00 28,50 24,25 21,63 18,50 33,63 31,13 
3225 29,63 79,38 11,38 38,88 11,50 52,00 14,00 9,00 33,50 


43. 


a, Construa distribuições de freqüéncia e de frequência relativa. 

b. Construa distribuições de frequência cumulativa e de frequência relativa cumulativa, 

c. Construa um histograma. 

d. Usando seus sumários, faça comentários e observações a respeito do preço das ações ordinárias. 


Noventa e quatro shadow stocks foram registrados pela American Association of Individual Investor. 
O termo shadow indica títulos de firmas de pequeno a médio portes que não são acompanhadas de 
perto pelas grandes empresas corretoras. Foram fornecidas informações sobre onde o título foi nego- 
ciado — Bolsa de Valores de Nova York (New York Stock Exchange — Nyse), American Stock Exchange 
(Amex) e mercado de balcão (over-the-counter — ОТС) —, o lucro por ação e a razão preço/rendimen- 
tos da seguinte amostra de 20 shadow stocks. 
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Lucro por Razão Preço/ 
Título Bolsa de Valores Ação (US$) Rendimentos 
Chemi-Trol OTC 0,39 27,30 
Candie’s OTC 0,07 36,20 
TST/Impreso OTC 0,65 12,70 
Unimed Pharm. OTC 0.12 59,30 
Skyline Chili Amex 0,34 19,30 
Cyanotech OTC 022 29,30 
Catalina Light. Nyse 0,15 3320 
DDL Elect. Nyse 0,10 10,20 
Euphonix OTC 0,09 49,70 
Mesa Labs еле 0,37 14,40 
RCM Tech. OTC 0,47 18,60 
Anuhco Amex 0,70 11,40 
Hello Direct OTC 023 21,10 
Hilite Industries OTC 0,6] 7,80 
Alpha Tech. OTC 9,11 34,60 
Wegener Group OTC 0,16 24,50 
U.S. Ноте & Garden OTC 024 8,70 
Chalone Wine OTC 027 44,40 
Eng. Support Sys. OTC 0,89 16,70 
Int. Remote Imaging Amex 0,86 4,70 


a. Forneça distribuições de freqüéncia e de frequência relativa dos dados das bolsas de valores. Onde 
os shadow stocks são mais arrolados? 

b. Forneça distribuições de frequência e de freqüéncia relativa dos dados de lucro por ação e da razão 
preço/rendimentos. Use as classes 0,00-19,00; 0,20-0,39 etc. para os dados de lucro por ação, e as 
classes 0,0-9,9, 10,0-19,9 etc. para a razão preço/rendimentos. Quais observações e comentários 
você pode fazer a respeito dos shadow stocks? 


44. Uma relação da renda per capita organizada por estado (Estados Unidos) é apresentada a seguir 

(Bureau of Economic Analysis, Current Population Survey, março de 2000). 

Ala, 21.500 : Ky. 21.55] N.D. 21.708 

Alasca 25.771 La. 21.385 Ohio 25.239 

Ariz. 23.152 Maine 23.002 Okla. 21.056 

Ark. 20.393 Md. 30.023 Ore. 24.775 

Calif. 27.579 Mass. 32.902 Penn. 26.889 

Colo. 28.821 Mich. 25.979 RI. 26.924 

Com. 37.700 Minn. 27.667 S.C. 21.387 

Del. 29.932 А Miss. 18.998 S.D. 22.201 

D.C. 37.325 Mo. 24.447 Tenn. 23.615 

Fla. 25.9922 Mont. 20.427 Texas 25.028 

Ga. 25.106 Neb. 24.786 Utah 21.096 

Havaí 26.210 Nev. 27.360 Vt. 24.217 

Idaho 21.080 N.H. 29.219 Va. 27.489 

ШЕ 28.976 NJ. 33.953 Wash. 28.066 

Ind. 24.302 NM. 20.008 W. Va. 19.373 

lowa 24.007 NY. 31.679 Wis. 25.184 

Kan. 25.049 NC. 24.122 Wyo. 23.225 

Desenvolva uma distribuição de freqüéncia, uma distribuição de freqüéncia relativa e um histograma. 
45. A Drug Store News (setembro de 2000) forneceu dados sobre as vendas de produtos farmacêuticos 


das principais farmácias de venda a varejo nos Estados Unidos. Os dados a seguir referem-se a ven- 
das anuais em milhões de dólares. 


Varejista Vendas Varejista Vendas 
Ahold USA $ 1.700 Medicine Shoppe $ 1.757 
cvs 12.700 Rite-Aid 8.637 
Eckerd 7.739 Safeway 2.150 
Kmart 1.863 Walgreens 11.660 


Kroger 3.400 Wal-Mart 7.250 
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46. 


a. Mostre uma apresentação de ramo-e-folha. 
b. Identifique os níveis anuais de vendas das menores, médias e maiores drogarias. 
c. Quais sáo as duas maiores drogarias? 


As temperaturas máximas e mínimas (em graus farenheit) de 20 cidades sáo apresentadas a seguir 
(USA Today, 9 de maio de 2000). 


Temperatura Temperatura Temperatura Temperatura 
Cidade Máxima Mínima Cidade Máxima Mínima 
Atenas 75 54 Melbourne 66 50 
Bangcoc 92 74 Montreal 64 52 
Cairo 84 57 Paris 77 55 
Copenhague 64 39 Rio de Janeiro 80 61 
Dublin 64 46 Roma 81 54 
Havana 86 68 Seul 64 '50 
Hong Kong 81 72 Сїпгарига 90 75 
Johannesburgo 61 50 Sydney 68 55 
Londres 73 48 Tóquio 79 59 
Manila 93 75 Vancouver 57 43 


47. 


48. 


a. Prepare uma apresentação de ramo-e-folha das temperaturas máximas. 

b. Prepare uma apresentacáo de ramo-e-folha das temperaturas mínimas. 

c. Compare as apresentações de ramo-e-folha dos itens (a) e (b) e faça algum comentário sobre as 
diferengas entre as temperaturas máximas e mínimas. 

d. Use a apresentação de ramo-e-folha do item (a) para determinar o número de cidades que têm tem- 
peraturas acima de 80 graus farenheit. 

e. Apresente distribuições de freqüéncia tanto sobre os dados relativos às temperaturas máximas 
como mínimas. 


Consulte o conjunto de dados referentes às temperaturas máximas e mínimas das 20 cidades do 
Exercício 46. 


a. Desenvolva um diagrama de dispersáo para mostrar a relacáo entre as duas variáveis: temperatura 
máxima e temperatura mínima. 
b. Comente a relação entre as temperaturas máxima e mínima. 


Foi realizado um estudo a respeito da satisfação profissional de quatro ocupações. A satisfação pro- 
fissional foi medida usando-se um questionário de 18 perguntas, e cada questão recebia uma pontua- 
ção de 1 a 5 para cada resposta, com as pontuações mais altas indicando maior satisfação. A soma 
dos pontos obtidos nas 18 questões fornece a satisfação profissional de cada indivíduo da amostra. Os 
dados são os seguintes: 


Nível de Nível de Nível de 
Ocupação Satisfação Ocupação Satisfação Ocupação Satisfação 
Advogado 42 Fisioterapeuta 78 Analista de Sistemas 60 
Fisioterapeuta 86 Analista de Sistemas 44 Fisioterapeuta 59 
Advogado 42 Analista de Sistemas 7i Marceneiro 78 
Analista de Sistemas 55 Advogado 50 Fisioterapeuta 60 
Advogado 38 Advogado 48 Fisioterapeuta 50 
Marceneiro 79 Marceneiro 69 Marceneiro 79 
Advogado 44 Fisioterapeuta 80 Analista de Sistemas 62 
Analista de Sistemas 41 Analista de Sistemas 64 Advogado 45 
Fisioterapeuta 55 Fisioterapeuta 55 Marceneiro 84 
Analista de Sistemas 66 Marceneiro 64 Fisioterapeuta 62 
Advogado 53 Marceneiro 59 Analista de Sistemas 73 
Marceneiro 65 Marceneiro 54 Marceneiro 60 
Advogado 74 Analista de Sistemas 76 Advogado 60 
Fisioterapeuta 52 


a. Forneça uma tabulação cruzada da ocupação e do nível de satisfação profissional. 
b. Calcule as porcentagens de linha de sua tabulação cruzada do item (a). 
c. Quais observações você pode fazer a respeito do nível de satisfação profissional dessas ocupações. 
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49. Empresas de maior porte geram mais receita? Os dados a seguir mostram o número de empregados e 
a receita anual de uma amostra de 20 empresas da Fortune 1000 (Fortune, 17 de abril de 2000). 


Receita (milhões 
Empresa Empregados ае dólares) 
Sprint 77.600 19.930 
Chase Manhattan 74.801 33710 
Computer Sciences 50.000 7.660 
Wells Fargo 89.355 21.795 
Sunbeam 12.200 2.398 
CBS 29.000 7.510 
Time Warner 69.722 27.333 
Steelcase 16.200 2.743 
Georgia-Pacific 57.000 17.796 
Toro 1.275 4.673 


Empresa 


American Financial 
Fluor 

Phillips Petroleum 
Cardinal Health 
Borders Group 
MCI Woridcom 
Consolidated Edison 
IBP 

Super Value 

H&R Block 


Receita (milhóes 


Empregados de dólares) 

9,400 3.334 
53.561 12.417 
15.900 13.852 
36.000 25.034 
23.500 2.999 
77.000 37.120 
14.269 7.491 
45.000 14.075 
50.000 17.421 

4.200 1.669 


a. Prepare um diagrama de dispersão para mostrar а relação entre as variáveis Receita e Empregados. 
b. Comente as possíveis relações entre as variáveis. 


50. Uma pesquisa dos prédios comerciais atendidos pela Cincinnati Gas & Electric Company perguntou 
qual principal combustível de aquecimento era usado e em que ano o prédio fora construído. Uma 
tabulação cruzada parcial dos dados do levantamento é apresentada a seguir: 

Tipo de Combustível 
Ano de Combustível 
Construção Eletricidade Gás Natural de Petróleo Gás Propano Outros 
1973 ou antes 40 183 12 5 7 
1974—1979 24 26 2 2 0 
1980-1986 37 38 | 0 6 
1987-1991 48 70 2 0 | 
a. Conclua a tabulação cruzada mostrando os totais de linha e os totais de coluna. 
b. Mostre as distribuições de freqüéncia correspondentes ao ano de construção e tipo de combustível. 
c. Prepare uma tabulação cruzada mostrando as porcentagens de coluna. 
d. Prepare uma tabulação cruzada mostrando as porcentagens de linha. 
e. Comente a relação entre o ano de construção e o tipo de combustível. 

51. A Tabela 2.18 contém uma parte dos dados do arquivo intitulado Fortune que se encontra no site 
www.thomsonlearning.com.br/estatapl.htm. Ele fornece dados sobre o patrimônio dos acionistas, 
valor de mercado e lucro de uma amostra de 50 empresas listadas na Fortune 500. 

Tabela 2.18 Dados de uma amostra de 50 empresas da Fortune 500 
Patrimônio dos Valor de Mercado Lucro 
Empresa Acionistas (US$ 1.000) (US$ 1.000) (US$ 1.000) 
AGCO 982,1 372,1 60,6 
AMP 2698,0 12017,6 20 
Apple Computer 1642,0 4605,0 309,0 
Baxter International 2839,0 21743,0 315,0 
Bergen Brunswick 629,1 2787.5 3;l 
Best Buy 557,7 10376,5 94,5 
Charles Schwab 1429,0 35340,6 348,5 
Walgreen 2849,0 30324,7 511,0 
Westvaco 2246,4 2225,6 132,0 
Whirlpool 2001,0 3729,4 325,0 
Хегох 5544,0 35603,7 395,0 
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a. Prepare uma tabulação cruzada das variáveis Patrimônio dos Acionistas e Lucro. Use as classes 
0-200, 200-400, ..., 1.000-1.200 para Lucro, e as classes 0-1.200, 1.200-2.400, ..., 4.600-6.000 para 
o Património dos Acionistas. 
b. Calcule as porcentagens de linha de sua tabulação cruzada do item (a). 
c. Qual relação, se houver, você observa entre o Lucro e o Patrimônio dos Acionistas? 
52. Consulte o conjunto de dados da Tabela 2.18. 


a. Prepare uma tabulação cruzada das variáveis Valor de Mercado e Lucro. 
b. Calcule as porcentagens de linha de sua tabulação cruzada do item (a). 
c. Comente a relação, se houver, entre as variáveis. 


53. Consulte o conjunto de dados da Tabela 2.18. 


a. Prepare um diagrama de dispersão para mostrar a relação entre as variáveis Lucro e Patrimônio dos 
Acionistas. 
b. Comente a relação, se houver, entre as variáveis. 


54. Consulte o conjunto de dados da Tabela 2.18. 


a. Prepare um diagrama de dispersão para mostrar a relação entre as variáveis Valor de Mercado e 
Patrimônio dos Acionistas. 
b. Comente a relação, se houver, entre as variáveis. 


Estudo de Caso - Pelican Stores 


A Pelican Stores é uma rede de lojas de vestuário feminino que opera nos Estados Unidos. A rede reali- 
zou recentemente uma promoção na qual cupons de desconto eram enviados a clientes das lojas do ramo. 
Os dados coletados de uma amostra de 100 transações com cartões de crédito feitas na loja durante um dia 
em novembro de 2002 estão contidos no arquivo intitulado Pelican. 


Tabela 2.19 Dados de uma amostra de 100 compras com cartão nas lojas Pelican 


Método de Valor do Estado 

Cliente Pagamento Artigos Desconto Vendas Sexo Civil Idade 
Г Discover | 0,00 39,50 Masculino Casado 32 
2 Proprietary Card | 25,60 102,40 Feminino Casada 36 
3 Proprietary Card l 0,00 22,50 Feminino Casada 32 
4 Proprietary Card 5 121,10 100,40 Feminino Casada 28 
5 Mastercard 2 0,00 54,00 Feminino Casada 34 
96 Mastercard l 0,00 39,50 Feminino Casada 44 
97 Proprietary Card 9 82,75 253,00 Feminino Casada 30 
98 Proprietary Card 10 18,00 287,59 Feminino Casada 52 
99 Proprietary Card 2 31,40 47,60 Feminino Casada 30 
100 Proprietary Card і 11,06 28,44 Feminino Casada 44 


A Tabela 2.19 mostra uma parte do conjunto de dados. Um valor diferente de zero para a variável 
Desconto indica que a cliente trouxe os cupons promocionais e os usou. Para um número muito pequeno 
de clientes, o valor dos descontos é, de fato, maior que o valor das vendas (veja a cliente 4). O valor das 
vendas é líquido, sem descontos ou trocos. 

A gerência das Lojas Pelican gostaria de usar esses dados de amostra para conhecer sua clientela e ava- 
liar a promoção envolvendo cupons de desconto. 


Relatório Administrativo 
Use os métodos tabular e gráfico de estatística descritiva para ajudar a gerência a desenvolver um perfil 
dos clientes e avaliar a campanha promocional. Seu relatório deveria incluir, no mínimo, o seguinte: 


1. Distribuições de freqüéncia percentual para as variáveis-chave. 


2. Um gráfico em barras ou um gráfico em setores (“pizza”) mostrando a porcentagem de compras 
efetuadas pelas clientes que poderiam ser atribuídas à campanha promocional. 
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3. Um diagrama de dispersão do tipo de clientela (normal ou atraída pela promoção) versus vendas. 
Comente quaisquer similaridades ou diferenças existentes. 


4. Um diagrama de dispersão das vendas versus desconto relativo somente às clientes que responde- 
ram à promoção. Comente qualquer relação clara entre as vendas e os descontos. 


5. Um diagrama de dispersão para explorar a relação entre as vendas e a idade das clientes. 


Apêndice 2.1 – O Uso do Minitab para Apresentações 
Tabulares e Gráficas 


O Minitab oferece extensas capacidades para a criação de sumários tabulares e gráficos de dados. Neste 
apêndice, mostramos como o Minitab pode ser usado para se construir diversos sumários gráficos e o 
sumário tabular de uma tabulação cruzada. Os métodos gráficos apresentados incluem o gráfico de disper- 
são unidimensional (dot plot), o histograma, a apresentação de ramo-e-folha e o diagrama de dispersão. 


Gráfico de Dispersão Unidimensional (Dot Plot) 


Usamos os dados do tempo necessário para a conclusão das auditorias apresentados na Tabela 2.5. Os 
dados estão na coluna C1 de uma planilha do Minitab. As etapas a seguir geraráo um gráfico de dispersão 
unidimensional: 


Etapa 1. Selecione o menu Graph e escolha DotPlot 
Etapa 2. Selecione One Y, Simple e dé um clique em OK 
Etapa 3. Quando a caixa de diálogo Dotplot-One Y aparecer: 
Digite C1 na caixa Graph Variables 
Dê um clique em OK 


Histogramas 


Mostramos como construir um histograma com freqüéncias no eixo vertical usando os dados de tempo para 
conclusão das auditorias apresentados na Tabela 2.5. Os dados estão na coluna C1 de uma planilha do 
Minitab. Os passos a seguir gerarão um histograma dos tempos necessários para a conclusão das auditorias: 


Etapa 1. Selecione o menu Graph 
Etapa 2. Escolha Histogram 
Etapa3. Selecione Simple e dê um clique em OK 
Etapa 4. Quando a caixa de diálogo Histogram-Simple aparecer: 
Digite СІ na caixa Graph Variables 
Dê um clique em OK 
Etapa 5. Quando o Histograma aparecer: 
Posicione o ponteiro do mouse sobre qualquer uma das barras 
Dê um clique duplo 
Etapa 6. Quando a caixa de diálogo Edit Bars aparecer: 
Dê um clique na guia Binning 
Selecione Midpoint para Interval Type 
Selecione Midpoint/Cutpoint positions para Interval Definition 
Digite 12:32/5 na caixa Midpoint/Cutpoint positions* 
Dê um clique em OK 


Apresentação de Ramo-e-Folha 


Usamos os dados do teste de aptidão apresentados na Tabela 2.9 para demonstrar a construção de uma 
apresentação de ramo-e-folha. Os dados estão na coluna C1 de uma planilha do Minitab. As etapas a seguir 
gerarão a apresentação de ramo-e-folha mostrada na Seção 2.3: 


* O registro 12:35 indica que 12 é o ponto médio da primeira classe, 35 é o ponto médio da última classe e 5 é a amplitude de classe. 
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Etapa 1. Selecione o menu Graph 

Etapa 2. Escolha Stem-and-Leaf 

Etapa3. Quando a caixa de diálogo Stem-and-Leaf aparecer: 
Digite Ci na caixa Graph Variables 
Dê um clique em OK 


Diagrama de Dispersão 


Usamos os dados da loja de equipamentos de som apresentados na Tabela 2.13 para demonstrar a constru- 
ção de um diagrama de dispersão. As semanas estão numeradas de de 1 a 10 na coluna СІ, os dados refe- 
rentes ao número de comerciais estão na coluna C2 e os dados referentes às vendas estão na coluna C3 de 
uma planilha do Minitab. As etapas a seguir gerarão o diagrama de dispersão mostrado na Figura 2.7. 


Etapa 1. Selecione o menu Graph 

Etapa 2. Escolha Scatterplot 

Etapa3. Selecione Simple e dê um clique em OK 

Etapa 4. Quando a caixa de diálogo Scatterplot-Simple aparecer: 
Digite C3 sob Y variables e C2 sob X variables 
Dê um clique em OK 


Tabulação Cruzada 


Usamos os dados da Zagat's Restaurant Review, dos quais uma parte encontra-se na Tabela 2.10, para fazer 
nossa demonstração. Os restaurantes estão numerados de 1 a 300 na coluna C1 da planilha do Minitab. As 
avaliações da qualidade estão na coluna C2 e os preços das refeições estão na coluna C3. 

O Minitab somente pode criar uma tabulação cruzada para variáveis qualitativas, e o preço das refei- 
ções é uma variável quantitativa. Sendo assim, precisamos primeiramente codificar os dados de preço das 
refeições especificando a classe à qual cada preço de refeição pertence. As etapas apresentadas a seguir 
codificarão os dados de preço das refeições a fim de criar quatro classes de preço de refeições na coluna 
C4: US$ 10-19, US$ 20-29, US$ 30-39 e US$ 40-49. 


Etapa 1. Selecione o menu Data 

Etapa 2. Escolha Code 

Etapa3 Escolha Numeric to Text 

Etapa 4. Quando a caixa de diálogo Code-Numeric to Text aparecer: 
Digite C3 na caixa Code data from columns 
Digite C4 na caixa Into columns 
Digite 10:19 na primeira caixa Original values e $10-19 na caixa New adjacente 
Digite 20:29 na segunda caixa Original values e $20-29 na caixa New adjacente 
Digite 30:39 na terceira caixa Original values e $30-39 na caixa New adjacente 
Digite 40:49 na quarta caixa Original values e $40-49 na caixa New adjacente 
Dê um clique em OK 


Para cada preço de refeição indicado na coluna C3, a categoria de preço de refeição correspondente 
aparecerá agora na coluna C4. Agora, podemos desenvolver uma tabulação cruzada da avaliação da quali- 
dade e das categorias de preço de refeição usando os dados das colunas C2 e C4, Os passos a seguir cria- 
rão uma tabulação cruzada que contém as mesmas informações mostradas na Tabela 2.11. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Tables 

Etapa 3. Escolha Cross Tabulation and Chi-Square 

Etapa 4. Quando a caixa de diálogo Cross Tabulation and Chi-Square aparecer: 
Digite C2 na caixa For rows e C4 na caixa For columns 
Selecione Counts, abaixo da opção Display 
Dê um clique em OK 
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Apêndice 2.2 - О Uso do Excel para Apresentações 
Tabulares e Gráficas 


O Excel oferece extensas capacidades para a construcáo de sumários tabulares e gráficos de dados. Trés 
das ferramentas mais potentes são a ferramenta Inserir Função, o Assistente de Gráfico e o Relatório de 
Tabela Dinâmica. 


A Ferramenta Funções e Inserir Função 


O Excel oferece uma grande variedade de funções que são úteis para a análise estatística, Se sabemos qual 
função queremos e a maneira de usá-la, podemos simplesmente introduzir a função diretamente em uma 
célula de uma planilha do Excel. Caso contrário, o Excel oferece a ferramenta Inserir Função para nos aju- 
dar a identificar as funções disponíveis e utilizá-las. 


Ferramenta Inserir Função Para acessar a ferramenta Inserir Função dê um clique na barra de fórmu- 
las ou selecione o menu Inserir e escolha f, Função. Aparecerá, então, a caixa de diálogo Inserir Função 
(Figura 2.10). A caixa Ou selecione uma categoria exibe uma relação das diversas categorias de funções 
do Excel; selecionamos Estatística na Figura 2.10. Quando a opção Estatística é selecionada, uma rela- 
ção de todas as funções estatísticas é exibida na caixa Selecione uma função. Aqui, realçamos a função 
CONT.SE. Tão logo uma função é realçada, a forma apropriada da função juntamente com uma breve des- 
crição aparece abaixo da caixa Selecione uma função. Para obter ajuda a respeito de como usar adequa- 
damente a função, dê um clique em OK. 


Distribuições de Freqüéncia Mostramos como a função CONT.SE pode ser usada para construirmos 
uma distribuição de freqüéncia dos dados correspondente às compras de refrigerantes apresentadas na 
Tabela 2.1. Consulte a Figura 2.11 à medida que descrevermos as tarefas envolvidas. A planilha de fórmu- 
las (que mostra as funções e as fórmulas usadas) aparece em segundo plano e a planilha de valores (que 
mostra os resultados obtidos usando-se as funções e fórmulas) aparece em primeiro plano. 

O rótulo “Marca Comprada” e os dados referentes às 50 compras de refrigerantes estão nas células 
АТ:А51. Introduzimos também rótulos nas células C1:D1 e os nomes dos refrigerantes nas células C2:C6. 
A função CONT.SE do Excel pode ser usada para contar o número de vezes que cada refrigerante apare- 
ce nas células. As etapas a seguir utilizam a ferramenta Inserir Função para produzir a distribuição de fre- 
qüéncia que aparece no primeiro plano da Figura 2.11. 


Figura 2.10 Caixa de diálogo “Inserir Função” do Excel 
Inset ———— € E, 


К сы ос fora function: 


'COUNTIF(range,criteria) E: E 
hs. Counts the number of teli within a a range that d the given condition 
" 
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Etapal. Selecione a célula D2, acesse a ferramenta Inserir Função e escolha CONT.SE na relação 


de funções estatísticas 
Etapa 2. Рё um clique em OK 
Etapa 3. Quando a caixa de diálogo Argumentos da Função aparecer: 
Digite $A$2:$A$51 na caixa Intervalo 
Digite C2 na caixa Critérios 
Dê um clique em OK 
Etapa 4. Copie a célula D2 nas células D3:D6 


A planilha de fórmulas da Figura 2.11 mostra as fórmulas de célula inseridas quando aplicamos essas 
etapas. A planilha de valores exibe os valores calculados através da utilização dessas fórmulas de célula; 
vemos que a planilha do Excel exibe a mesma distribuição de fregiiência que desenvolvemos na Tabela 2.2. 


Figura 2.11 A distribuição de frequência das compras de refrigerantes construída 
com a função “CONT.SE” do Excel 


[o A B | c D «- . E. c 
| 13 Marca Comprada| Refrigerante Freqüéncia 
Г2 Соса Соја |. Coca-Cola ECOUNTIF(SAS2:SA$51,C2) 
1 3 | Coca-Cola Light Coca-Cola Light |-COUNTIF($A$2:$A$51,C3) 
4 | Pepsi-Cola ` Dr. Pepper =COUNTIF($A$2:$A$51,C4) | 
15 | Diet Coke | Pepsi-Cola [-COUNTIF($A$2:$A$51.C5) | 
6 | Coke Classic * | Sprite ECOUNTIF($A$2:$A$51;C6) | 
17 | CokeClassic . 
| 8 | Dr. Pepper ~ > A B Cc: D LE 
9 | Coca-Cola Light ^ 1 |Marca Comprada Refrigerante ЕЕ 
10 | Pepsi-Cola 2 | Coca-Cola. uu Coca-Cola . 19 
45| Pepsi-Cola з | Diet Coke Coca-Cola Light 8 
46| Pepsi-Cola | 4 | Pepsi-Cola * ^ Dr. Pepper PEN 
47| Pepsi-Cola | 5 | Diet Coke Pepsi-Cola 13 1 
148| Coca-Cola . 6 | Coca-Cola Sprite. EN 
| 49 | Dr. Pepper 7 | Coca-Cola 
50 | Pepsi-Cola 8 | Dr. Pepper 
51| Sprite 9 | Diet Coke * | Д 
52 | 10 | Pepsi-Cola 


45 | Pepsi-Cola 

46 | Pepsi-Cola nel 
47 | Pepsi-Cola 

48 | Coca-Cola 

|49 |.Dr. Pepper 

[50 Pepsi- -Cola 

51 [Sprite 

521 


Se você estiver familiarizado com a função CONT.SE e não necessitar da ajuda da ferramenta Inserir 
Função, pode digitar as fórmulas diretamente nas células D2:D6. Por exemplo, para contar o número de 
vezes que a Coca-Cola aparece, digite a seguinte fórmula na célula D2: 


-CONT.SE($A$2:$A$51,C2) 
Para contar o número de vezes que os outros refrigerantes aparecem; copie essa fórmula nas células 
D3:D6. 
Muitas outras funções do Excel serão demonstradas nos apêndices dos próximos capítulos. 


Dependendo da complexidade da função, nós a introduziremos diretamente na célula apropriada ou utili- 
.zaremos a ferramenta Inserir Função, 
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Nota: As linhas | I 
a 44 estão ocultas. 
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Assistente de Gráfico 


O Assistente de Gráfico do Excel fornece extensas capacidades para desenvolver apresentações gráficas. 
Essa ferramenta nos possibilita ir além daquilo que pode ser feito quando usamos somente fórmulas e fun- 


ções. Mostramos como ela pode ser usada para construirmos gráficos em barras, histogramas e diagramas 
de dispersão. 


Gráficos em Barras e Histogramas Mostramos agora como o Assistente de Gráfico pode ser usado para 
construirmos gráficos em barras e histogramas. Vamos iniciar desenvolvendo um gráfico em barras dos 
dados referentes às compras de refrigerantes; construímos uma distribuição de frequência na Figura 2.11. 
O gráfico que vamos desenvolver é uma extensão daquela planilha. Consulte a Figura 2.12 à medida que 
descrevermos as tarefas envolvidas. A planilha dos valores da Figura 2.11 aparece em segundo plano; o 


DA INTERNET gráfico desenvolvido para os dados sobre refrigerantes aparece em primeiro plano. 

As etapas a seguir descrevem como se pode usar o Assistente de Gráfico do Excel para construir um 
gráfico em barras dos dados sobre as compras de refrigerantes utilizando a distribuição de frequência que 
aparece nas células C1:D6. 

Etapa 1. Selecione as células CI:D6 

Etapa 2. Selecione o botão Assistente de Gráfico na barra de ferramentas Padrão (ou selecione o 

menu Inserir e escolha a орсйо Gráfico) 

Figura 2.12 Gráfico em barras das compras de refrigerantes construído com o assistente de gráfico do Excel 
н в ET D | E F —E HT 
l1 {Marca Comprada Refrigerante — |Freqüéncia 
| 2. [Coca-Cola Coca-Cola |“ 4 19 
13 Coca-Cola Light Coca-Cola Light |, 8 
| 4 [Pepsi-Cola Dr. Pepper |* 5 
| 5 [Coca-Cola Light Pepsi-Cola ЯИК 
| 6 |Coca-Cola Sprite i йд] 
7 |Coca-Cola 
"8 |Dr. Pepper ——— — == - 
|9 Cos EP Light | „ Gráfico em Barras das Compras de Refrigerantes ] 
(о [Pepsi-Cola PESE AE m à e. =] 
[45 ;Pepsi-Cola “el | 
46 |Pepsi-Cola | 8154 | 
47 |Pepsi-Cola LM 
48 | Coca-Cola FH 10 | | 

Dr. Pepper vos 
50 |Pepsi-Cola (у | 
E Sprite 5 9; Coca-Cola Coca-Cola Dr, Pepper Pepsi-Cola | 
Р 7 Light M'EN ——— 
53 ; a g н dt 
РШ ES : Refrigerante”. — 7 ж ИШ 
55 | | T 
561 | 
57 | | 
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Etapa 3. Quando o Assistente de Gráfico — Etapa 1 de 4 — Tipo de Gráfico aparecer: 
Escolha Coluna na relação Tipo de gráfico 
Escolha Colunas Agrupadas na janela Subtipo de gráfico 
Dê um clique em Avançar 
Etapa 4. Quando a caixa de diálogo Assistente de Gráfico — Etapa 2 de 4 — Dados de Origem aparecer: 
Dê um clique em Avançar 
Etapa 5. Quando a caixa de diálogo Assistente de Gráfico — Etapa 3 de 4 — Opções de Gráfico aparecer: 
Selecione a guia Títulos 
Digite Gráfico de Barras ou Compras de Refrigerantes na caixa Título do Gráfico 
Digite Refrigerante na caixa Eixo das Categorias (X) 
Digite Freqüéncia na caixa Eixo dos Valores (Y) 
Selecione a guia Legenda e depois 
Remova a marca de verificação da caixa Mostrar legenda 
Dê um clique em Avançar 
Etapa 6. Quando a caixa de diálogo Assistente de Gráfico — Etapa 4 de 4 — Localização do Gráfico 
aparecer. 
Especifique uma localização para o novo gráfico (usamos a planilha atual ao sele- 
cionarmos Como objeto em) 
Dê um clique em Concluir 


O gráfico (diagrama) em barras resultante é mostrado na Figura 2.12.º 

O Assistente de Gráfico do Excel pode produzir um gráfico em setores (“pizza”) dos dados de compras 
de refrigerantes de maneira similar. Para desenvolver um gráfico em setores, escolha Pizza na relação Tipo 
de Gráfico da Etapa 3. 

Conforme afirmamos no destaque “Notas e Comentários” no final da Seção 2.2, um histograma é fun- 
damentalmente o mesmo que um gráfico em barras, sem nenhuma separação entre as barras. A Figura 2.13 
mostra os dados de tempo para a conclusão das auditorias, com uma distribuição de freqüéncia em segun- 
do plano e um gráfico em barras desenvolvido com o Assistente de Gráfico (usando as mesmas etapas que 
acabamos de descrever) em primeiro plano. Uma vez que as barras adjacentes de um histograma devem 
tocar-se, precisamos editar o gráfico de colunas (o gráfico em barras) a fim de eliminar o intervalo entre 
cada uma das barras. Às etapas a seguir levam a efeito esse processo. 


Etapa 1. Рё um clique com o botão direito do mouse em qualquer barra do gráfico de colunas рага 
produzir uma lista de opções 
Etapa 2. Escolha Formatar Série de Dados 
Etapa 3 Quando a caixa de diálogo Formatar Série de Dados aparecer: 
Selecione a guia Opções 
Digite 0 na caixa Largura do intervalo 
Dê um clique em OK 


Diagrama de Dispersão Usamos os dados da loja de equipamentos de som da Tabela 2.13 para demons- 
trar o uso do Assistente de Gráfico do Excel para construir um diagrama de dispersão. Consulte a Figura 
2.14 à medida que descrevermos as tarefas envolvidas. А planilha dos dados encontra-se em segundo plano 
e o diagrama de dispersão produzido pelo Assistente de Gráfico aparece em primeiro plano. As etapas a 
seguir produzirão o diagrama: 


Etapa 1. Selecione as células B1:C11 
Etapa 2. Selecione o botão Assistente de Gráfico na barra de ferramentas Padrão (ou selecione o 
menu Inserir e escolha a opção Gráfico) 
Etapa3. Quando a caixa de diálogo Assistente de Gráfico — Etapa 1 de 4 — Tipo de Gráfico aparecer: 
Escolha Dispersão (XY) na janela Tipo de gráfico: 
Dê um clique em Avançar 


* Redimensionar um gráfico do Excel não é difícil. Primeiramente, selecione o gráfico. Pequenos quadrados, chamados alças de redi- 
mensionamento, surgirão nas bordas do gráfico. Dê um clique nas alças de redimensionamento e arraste-as para redimensionar a figu- 
ra de acordo com sua preferência. 
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Etapa4. ^ Quando a caixa de diálogo Assistente de Gráfico — Etapa 2 de 4 — Dados de Origem aparecer: 
Dé um clique em Avancar 
Figura 2.13 Histograma dos dados de tempo para conclusão das auditorias construído com o Excel 
CA: B | Ce LTD Ed F с h H | r*[4J | K7 
1 [Tempo Audit. Tempo Audit Fregüéncia | 
2 |12 ИКЕ 1 10-14 4: 
EREK | 1-19 9 om 8 + 
apo + 20-24 5 | 
5 |22 25-29 “é 2 | 
6|14 * 3034 |. 1 | | 
7 |14. | | 
8 [15 E a C eme E Án 
9 [27> . 1 B istograma dos Dados paraa Conclusio das Auditorias 
:10 [21 | E И 4 E E PN n 
11|18 | [МОЛ E 
mes MEI EE 
H3 [18 + É él | 
d4[22 — * * $7 n 
j5[33- . ES | 
[16 | 16 Ui Ф 424 
H7[i8. . P [| O | 
(18117 ` беу 10-14 7 45- D 20-24" 22529. MEER: Iu 
119 |23 "OR 1 
20128 E Tempo (para à conclusão) das auditorias’ ? Sog 
[21/13 5. 
22 | | 
23 | | | 
Figura 2.14 Diagrama de dispersáo да loja de equipamentos de som criado 
com o assistente de gráfico do Excel 
„A | е В a p FE G | H» 

1 | Semana | Nº de Comerciais | 

211 [|^ & 3 

3 2 5 a 

4 3 ES! 

5| 4 3* 8 oa | 

6 5 в 4 

7 6 И 

-| = P Diagrama d de Dispersão“ “da Loja de 

| 5 - ойы Equipamentos de Som 7 

H| 10 | M 26 | LA 

E i" | | | 

14 АЕ 20 ; l 

15 S of 

16 “i * ü 

17 | 

18 [= 

19 

20 

21 


Capítulo 2 


Etapa 5. 


Etapa 6. 


Estatística Descritiva: Métodos Tabulares e Métodos Gráficos 


Quando a caixa de diálogo Assistente de Gráfico — Etapa 3 de 4 — Opções de Gráfico aparecer: 
Selecione a guia Títulos 
Digite Diagrama de Dispersáo da Loja de Equipamentos de Som na caixa Título do 
gráfico 
Digite Comerciais na caixa Eixo dos valores (X) 
Digite Volume de Vendas na caixa Eixo dos Valores (Y) 
Selecione a guia Legenda 
Remova a marca de verificacáo da caixa Mostrar legenda 
Dé um clique em Avançar 
Quando a caixa de diálogo Assistente de Gráfico — Etapa 4 de 4 — Localização do Gráfico 
aparecer: 
Especifique uma localização para o novo gráfico (Usamos a planilha atual ao sele- 
cionarmos Como objeto em) 
Dé um clique em Concluir 


Agora é fácil acrescentar uma linha de tendéncia ao diagrama de dispersáo. 


Etapa 1. 


Etapa 2. 
Etapa 3. 


Posicione o ponteiro do mouse sobre qualquer ponto de dados no diagrama de dispersáo 
e dé um clique com o botão direito para exibir uma lista de opções 
Escolha Adicionar Linha de Tendência 
Quando a caixa de diálogo Adicionar Linha de Tendência aparecer: 
Selecione a guia Tipo 
Escolha Linear na janela Tipo de Tendência/Regressão 
Dê um clique em OK 


Relatório de Tabela Dinâmica 


O Relatório de Tabela Dinâmica do Excel oferece uma ferramenta valiosa para gerenciar conjuntos de 
dados que envolvem mais de uma variável. Ilustraremos sua utilização mostrando como desenvolver uma 
tabulação cruzada. 


Tabulação Cruzada Ilustramos a construção de uma tabulação cruzada usando os dados dos restauran- 
tes apresentados na Figura 2.15. Os rótulos são introduzidos na linha 1 e os dados correspondentes a cada 
um dos 300 restaurantes são inseridos nas células A2:C301. 


Etapa 1. 
Etapa 2. 
Etapa 3. 


Etapa 4. 


Etapa 5. 


Etapa 6. 


Selecione o menu Dados 
Escolha Relatório de Tabela e Gráfico Dinâmicos 
Quando a caixa de diálogo Assistente de Tabela Dinâmica e Gráfico Dinâmico — Etapa 1 
de 3 — aparecer: 
Escolha Banco de dados ou lista do Microsoft Office Excel 
Escolha Tabela Dinâmica 
Dê um clique em Avançar 
Quando a caixa de diálogo Assistente de Tabela Dinâmica e Gráfico Dinâmico — Etapa 2 
de 3 — aparecer: 
Digite A1:C301 na caixa Intervalo 
Dê um clique em Avançar 
Quando a caixa de diálogo Assistente de Tabela Dinâmica e Gráfico Dinâmico — Etapa 3 
de 3 — aparecer: 
Selecione Na Nova Planilha 
Dê um clique em Layout 
Quando a caixa de diálogo Assistente de Tabela Dinámica e Gráfico Dinámico — Diagrama 
aparecer (veja a Figura 2.16): 
Arraste o botão do campo Avaliação da Qualidade para a seção LINHA do diagrama 
Arraste о botão do campo Preço da Refeição (US$) para a seção COLUNA do 
diagrama 
Arraste o botão do campo Restaurante para a seção DADOS do diagrama 
Dê um clique duplo sobre o botão do campo Soma do Restaurante na seção 
DADOS 
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Quando a caixa de diálogo Campo da Tabela Dinâmica aparecer: 
Escolha Contar sob Sintetizar por 


Dê um clique em OK (A Figura 2.17 mostra o diagrama concluído) 
Dê um clique em OK 


Figura 2.15 Pianilha do Excel contendo dados dos restaurantes 


"E WES EE TD 
s 1] Restaurante | Aval. Qualidade | Preço da Refeição ($) 
2 | 1 | Bom? | s Ba 4 
3 sÓtimo « ' 22 a 
4 „Bom 528 a 
i5 :;Excelente $5 38 “E 
6 „Ойто“ ® 33 L7 oa) 
7 .. Bom +. „28° ES 
8 Omo |> d 
TE] is Ótimo. 3 LE 
10 | бито A 
(11 | . “Bom ¥ à | 
[292 Ótimo 
293 Ж Онто... è 
294 и Excelente a CU 45 mw 
295 io Bem # 214% 
296 Вот“ `% 18. X 
297i ^Bom æ 17 аъ t d 
298 [= Bom » C16 3 i 
299 « Bom , '* 45* . B 
300] Ótimo” #38 ы 
301 Otimo 6 ESA „м 
302 


Figura 2.16 Assistente de tabela dinâmica e gráfico dinâmico — Diagrama 


PivolTable and PivolChast Wizard 2 Layout ВИАН E ES 

" —— m m ES | 

оз БЖИ шшс, à Construct your PivokTeble report by 
AZ А dragging the fleki buttons on the right 


to the díagram on the left, 
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Figura 2.17 Diagrama concluído 


Construct your PivotTable report by ix 
dragging the field buttons оп the right 
to the diagram on the left. 


* 


Etapa 7. Quando a caixa de diálogo Assistente de Tabela Dinámica e Gráfico Dinâmico — Etapa 3 
de 3 — reaparecer: 
Dé um clique em Concluir 


Uma parte do output? gerado pelo Excel é mostrada na Figura 2.18. Note que o produto (output) que apa- 
rece nas colunas D a AK está oculto a fim de que os resultados possam ser visualizados em uma imagem 
razoavelmente grande. Os rótulos de linha (Excelente, Bom e Ótimo) e os totais de linha (66, 84, 150 e 300) 
que aparecem na Figura 2.18 são similares aos rótulos de linha e totais de linha expostos na Tabela 2.11. Mas 
eles estão em uma ordem diferente. Para colocá-los na ordem Bom, Ótimo e Excelente siga estas etapas. 


Etapa 1. Dê um clique com o botão direito em Excelente na célula A5 
Etapa 2. Escolha Ordem - 
Etapa3. Selecione Mover para o Fim 


Na Figura 2.18, uma coluna é designada para cada valor possível de preço das refeições. Por exemplo, 
a coluna B contém uma contagem dos restaurantes com preços de US$ 10 por refeição, a coluna C con- 
tém uma contagem dos restaurantes com preços de US$ 11 por refeição e assim por diante. Para visuali- 
zar o Relatório de Tabela Dinâmica de forma semelhante à mostrada na Tabela 2.11, devemos agrupar as 
colunas em quatro categorias de preços: US$ 10-19, US$ 20-29, US$ 30-39 e US$ 40-49. As etapas 
necessárias para agrupar as colunas correspondentes à planilha mostrada na Figura 2.18 são as seguintes: 
Etapa 1. Рё um clique com o botão direito do mouse em Preço das Refeições (US$) na célula ВЗ 
da Tabela Dinâmica 
Etapa 2. Escolha Agrupar e Exibir Detalhe 
Escolha Agrupar 
Etapa 3. Quando a caixa de diálogo Agrupamento aparecer: 
Digite 10 na caixa Iniciar em 
Digite 49 na caixa Terminar em 
Digite 10 na caixa Por 
Dê um clique em OK 


O produto (output) revisado da Tabela Dinâmica é mostrado na Figura 2.19. É a Tabela Dinâmica final. 
Note que ela apresenta as mesmas informações que a tabulação cruzada exposta na Tabela 2.11. 


15 NT: Output – Dados de saída, resultado, produto (informática). 
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Figura 2.18 Resultado do relatório de tabela dinámica inicial (as colunas D:AK estáo ocultas) 
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Figura 2.19 Relatório de tabela dinámica final dos dados dos restaurantes 
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З * NA А er 
t n NE 
ESTATÍSTICA NA PRÁTICA | aiio qx 
SMALL FRY DESIGNE ^ ^, Te ж жө е 
Santa Ana, Califórnia А гш Ж ж : Sock ue d 


Fundada em 1997, a Small Fry Design é uma empresa de brinquedos e de acessórios que projeta e importa 
produtos para crianças. A linha de produtos da empresa inclui ursinhos de pelúcia, "móbiles, brinquedos musi- ` 
cais, chocalhos e security blankets!, caracterizando-se por projetos de brinquedos delicados de atta qualidade, 
com ênfase em cor, textura e som. Os produtos são projetados nos Estados Unidos e manufaturados na 
China, i 

A Small Ry Design ütiliza representantes independentes para vender os produtos à varejistas que comer- 
cializam produtos infantis, lojas de roupas e acessórios pára criaiças, lojas de présentés; lojas de departamen- , 
to de grande porte e grandes empresas que efetuam vendas por. catálogo. Atualmente, os “Produtos da Small 
Fry Design sáo distribuídos em mais de mil canais de varejo em todo o território dos Estados Unidos. 

О gerenciamento do fluxo de caixa é uma, das atividades mais críticas nas “operações diárias dessa empre- 
sa. Assegurar a suficiente entrada de caixa para satisfazer tanto as “obrigações dé débito atuais como as vindou- 
ras pode significar a diferença entre o sucesso e o fracasso do negócio. Um fator crucial no gerenciamento do. 


pott, CARN 


* Os autores agradecem a John A. McCarthy, presidente da Small Fry Design, por fornecer esta “Estatística na Prática”. 
1 NT: Security blanket: um pequeno cobertor ou outro tecido macio ao qual as crianças se apegam ou no qual se envolvem devi- 
do à sensação de conforto e segurança que proporciona; qualquer coisa que dá a uma pessoa a sensação de segurança ou alívio da 
ansiedade. 
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fluxo de caixa é a análise e o controle das contas a receber. Ao calcular o período médio e o valor em dólares 
das faturas pendentes, os gerentes podem prever a disponibilidade de caixa e monitorar as alterações na posi- 
ção das contas a receber. A empresa estabeleceu as seguintes metas: o tempo médio das faturas em haver não 
deve ultrapassar 45 dias e o valor em dólares das faturas com mais de 60 dias não deve exceder a 5% do valor 
em dólares de todas as contas a receber. 

Em um sumário publicado recentemente a respeito da posição das contas a receber, foram apresentadas as 


seguintes. estatísticas, descritivas referentes ão tempo necessárió para o recebiménto das faturas: 
Ea, 


Média ` “40 dias 


Mediana . ‚ү 35 dias 
Moda- 4 Lo ' 31 dias 


A interpretação dessas estatísticas mostra que a média, ou período médio, de uma fatura é de 40 dias. A 
mediana revela que metade das faturas permanece em haver durante 35 dias ou mais. A moda de 31 dias, que 
é o período mais frequente das faturas, indica que 3! dias é a extensão de tempo mais comum que uma fatu- 
ra permanece em haver. O sumário estatístico mostrou também que somente 3% do valor em dólares de 
todas as contas permaneceu acima de 60 dias. Tendo como base a informação estatística, a gerência conven- 
ceu-se de que as contas a receber e a entrada de caixa estavam sob controle, 

Neste capítulo, você aprenderá a calcular e interpretar algumas das medidas estatísticas usadas pela Small 
Fry Design. Além da média, mediana е moda, você aprenderá outras estatísticas descritivas, por exemplo, 
amplitude, desvio padrão, percentis e correlação. Essas medidas numéricas vão ajudá-lo na compreensão e 
interpretação dos dados. 


No Capítulo 2, discutimos os métodos tabulares e os métodos gráficos para sintetizar dados. Neste capí- 
tulo, apresentamos diversos métodos numéricos que constituem alternativas adicionais para sintetizar dados. 

Iniciamos com o desenvolvimento de medidas numéricas resumidas de conjuntos de dados que consis- 
tem em uma única variável. Quando um conjunto de dados contém mais de uma variável, as mesmas medi- 
das numéricas podem ser computadas separadamente para cada variável. Entretanto, no caso de duas variá- 
veis, também desenvolveremos medidas da relação existente entre as variáveis. 

Medidas numéricas de posição, dispersão, forma e associação serão apresentadas. Se as medidas calcula- 


,das referem-se aos dados de uma amostra, elas são chamadas estatísticas da amostra, Se as medidas calcu- 


ladas referem-se a dados de uma população, elas são denominadas parâmetros populacionais. Em-inferên- 
cia estatística, uma estatística amostral refere-se a um estimador por pontos do parâmetro populacional cor- 
respondente. No Capítulo 7, discutiremos mais detalhadamente o processo de estimativa por pontos. 

Nos dois apêndices deste capítulo, mostraremos como o Minitab e o Excel podem ser usados para cal- 
cularmos muitas das medidas numéricas aqui descritas. 


3.1 MEDIDAS DE POSIÇÃO 
Média 
Talvez a medida de posição mais importante seja a média, ou valor médio, de uma variável. A média cons- 
titui uma médida da posição central dos dados. Se os dados se referem a uma amostra, a média é indica- 
da por X; se os dados correspondem а uma população, a média é indicada pela letra grega |. 

Nas fórmulas estatísticas é habitual exprimir-se o valor da variável х da primeira observação por ху, o 
valor da variável X dà segunda observação por x, é assim por. diante. Em geral, o valor da variável x da 


i-ésima observação é indicado por x;. Para uma amostra com n observações, a fórmula da média da amos- 
traéa seguinte: 


MÉDIA DA AMOSTRA 
(3.1 
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Na fórmula anterior, o numerador é a soma dos valores das n observações, Ou seja, 


Zx-—-x txt tx 


A letra grega È é o símbolo de somatório. 


Para ilustrar o cálculo de uma média da amostra, vamos considerar os seguintes dados de tamanho de 


classe de uma amostra de cinco classes universitárias: 


Usamos a notação хі, x;, x4, X4 e х; para representar o número de estudantes em cada uma das cinco 


classes. 


46 


x = 46 


54 


42 


п 


46 


32 


ху = 54 


х = 42 


x, = 46 


Portanto, para calcular a média da amostra, podemos escrever: 


м 


Ух, 


i 


xptx,Qtx + x + л; 


х; = 32 


46 + 54 + 42 + 46 + 32 


n 


5 


O tamanho médio das classes da amostra é de 44 estudantes. 


Outra ilustração do cálculo da média de uma amostra é dada na seguinte situação: suponha que o depar- 
tamento de colocação profissional de uma universidade tenha enviado um questionário a uma amostra de 
diplomados da escola de administração, solicitando-lhes informações sobre salários mensais iniciais. A 


Tabela 3.1 mostra os dados coletados. 


5 


Graduado 
| 


о Co ш NO 


Salário Mensal 


Inicial (US$) 


2.850 
2.950 
3.050 
2.880 
2.755 
2.710 


Graduado 


7 
8 
9 
10 
| 
12 


Salário Mensal 
Inicial (US$) 
2.890 
3.130 
2.940 
3.325 
2.920 
2.880 


O salário mensal inicial médio da amostra de 12 graduados da escola de administração é calculado da 


seguinte maneira: 


A Equação 3.1 mostra como é calculada a média de uma amostra com n observações. A fórmula para cal- 
cular a média de uma população permanece a mesma, mas usamos uma notação diferente para indicar 
que estanios trabalhando com a população inteira. O número de observações em uma população é denota- 


м 


Ex а e om 
п 12 
2.850 + 2.950 +... + 2.880 
E 12 
_ 35.280 — 2.940 
12 


do por М, e o símbolo para a média de uma população é z. 


MÉDIA DA POPULAÇÃO 


u= 


2х; 
N 


(3.2) 
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A mediana é a 
medida de posição 
mais - 
frequentemente 
usada para dados 
de renda anual e 
valor patrimonial 
porque algumas 
rendas ou valores 
patrimoniais 
extremamente 
elevados podem 
inflacionar a média. 
Nesses casos, a 
mediana é a 
medida preferível 
da posição central. 
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Mediana 


A mediana é outra medida da posição central de uma variável. A mediana é o valor intermediário quan- 
do os dados são organizados em ordem crescente (do menor valor para o maior valor). Quando se trata de 
um número ímpar de observações, a mediana é o valor intermediário, Um número par de observações não 
tem nenhum úúmero intermediário'em particular. Nesse caso, seguimos a convenção de definir a mediana 
como a média dos valores correspondentes às duas observações intermediárias. Por conveniência, a defi- 
nição de mediana é reformulada e enunciada da seguinte maneira: 


MEDIANA 
Organize os dados em'ordem crescente (do menor valor para o maior valor). 
(a) Para um número ímpar de observações, a mediana é o valor intermediário. 


(b) Para um número par de observações, a mediana é a média dos dois valores intermediários. 


Vamos aplicar essa definição para calcular a mediana do tamanho de classe da amostra de cinco clas- 
ses universitárias. Organizando os dados em'ordem crescente, obtemos a seguinte lista: 


32 42 46 46 54 


Uma vez que o número de observações n = 5 é ímpar, a mediana é o valor intermediário. Desse modo, 
a mediana do tamanho das classes equivale a 46 estudantes. Embora esse conjunto de dados contenha duas 
observações com valores 46, cada observação é tratada separadamente quando organizamos os dados em 
ordem crescente. , 

Suponha também que calculemos.a mediana do salário inicial dos 12 graduados da escola de adminis- 
tracáo da Tabela 3.1. Primeiramente, organizamos os dados em ordem crescente: 


2.710 2.755 2.850 2.880 2.880 2.890 2.920 2.940 2.950 3.050 3.130 3.325 


Ai Ed S y 
` Os dois valores intermediários 


Já que n= 12 é par, identificamos os dois valores intermediários: 2.890 e 2.920. A mediana é a média 
desses valores. 


Mediana — E = 2.905 


Não obstante a média ser a medida de posição central mais comumente usada, em algumas situações 
é preferível usar a mediana. A média é influenciada por valores de' dados extremamente pequenos ou 
grandes. Por exemplo, suponha que um dos graduados (veja a Tabela 3.1) tenha um salário inicial de 
USS 10.000 por mês (talvez a família dessa pessoa seja a dona da empresa). Se mudarmos o salário men- 
sal inicial mais elevado da Tabela 3.1 de US$ 3.325 para US$ 10.000 e recalcularmos a média, a média 
da amostra passará de US$ 2.940 para US$ 3.496. A mediana de US$ 2.905, entretanto, não se alterará, 
porque US$ 2.890 e US$ 2.920 ainda são os valores intermediários. Ao incluirmos o salário inicial extre- 
mamente elevado, a mediana nos fornece uma medida mais acurada da posição central do que a média. 
Podemos generalizar e afirmar que, quando um conjunto de dados contém valores extremos, frequente- 
mente a mediana é a medida de posição central preferível. 


Moda 


Uma terceira medida da posição é a moda. A moda é definida da seguinte maneira: 


MODA 
Moda é o valor que ocorre com maior freqüéncia. 


Para ilustrar a identificação da moda, considere a amostra de cinco tamanhos de classe. O único valor 
que ocorre mais de uma vez é 46. Uma vez que esse valor tem a maior freqüéncia, pois ocorre duas vezes, 
ele é a moda, Como outra ilustração, considere a amostra de salários iniciais dos graduados da escola de 
administração. O único salário mensal inicial que ocorre mais de uma vez é US$ 2.880. Uma vez que esse 
valor tem a maior frequência, ele é a moda, · 
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Pode haver situações em que a maior freqüéncia ocorre em dois ou mais valores diferentes. Nesses 
casos, existe mais de uma moda. Se os dados têm exatamente duas modas, dizemos que os dados são bimo- 
dais. Se os dados possuem mais de duas modas, os denominamos multimodais. Nos casos multimodais, а 
moda quase nunca é considerada, porque relacionar três ou mais modas não seria especialmente útil para 
descrever a posição dos dados. 

A moda é uma medida importante da posição de dados qualitativos. Por exemplo, o conjunto dos dados 
qualitativos da Tabela 2.2 resultou na seguinte distribuição de frequência das compras de refrigerantes: 


Refrigerante Frequência 
Coca-Cola 19 
Coca-Cola Light 8 
Dr. Pepper 5 
Pepsi-Cola 13 
Sprite 5 
Total 50 


A moda, ou o refrigerante mais comprado, é a Coca-Cola. Para esse tipo de dados, evidentemente, não 
tem sentido falarmos em moda ou mediana. A moda fornece a informação que nos interessa: o refrigeran- 
te comprado com maior freqüéncia. 


Percentis 


Um percentil fornece a informação sobre como os dados se distribuem ao longo do intervalo entre o 
menor e o maior valor. Para dados que não têm muitos valores repetidos, o p-ésimo percentil divide os 
dados em duas partes. Aproximadamente p por cento das observagóes apresentam valores menores que o 
p-ésimo percentil, aproximadamente (100 — p) por cento das observações possuem valores maiores que 
0 p-ésimo percentil. O p-ésimo percentil é formalmente definido da seguinte maneira: 


PERCENTIL 
O p-ésimo percentil é um valor tal que pelo menos p por cento das observações são menores ou iguais 
a esse valor e pelo menos (100 — p) por cento das observações são maiores ou iguais a esse valor, 


Colégios e universidades geralmente registram notas de exames de admissão em termos de percentis. 
Por exemplo, suponha que um candidato obtenha a nota bruta de 54 pontos na parte oral de um exame de 
admissão. O desempenho desse estudante em relação a outros estudantes que fizeram o mesmo exame 
pode não ser claro imediatamente. Entretanto, se a nota bruta de 54 pontos corresponde ao 70º percentil, 
sabemos que aproximadamente 70% dos estudantes tiveram pontuações menores que esse indivíduo e que 
aproximadamente 30% dos estudantes tiveram notas mais altas do que ele. 

O procedimento a seguir pode ser usado para calcular o p-ésimo percentil: 


PARA CALCULAR O p-ÉSIMO PERCENTIL 
Etapa 1: Organize os dados em ordem crescente (do menor valor para o maior valor). 
Etapa 2: Calcule um índice i 
i= (g) 
100 


em que p é o percentil procurado e n, o número de observações. 
Etapa 3: (a) Se i não for um número inteiro, arredonde-o para cima. O número inteiro seguinte 
maior que i denota a posição do p-ésimo percentil. 
(b) Se i for um número inteiro, o p-ésimo percentil será a média dos valores nas posições 
iei+l. 


Como ilustração desse procedimento, vamos determinar o 85º percentil dos dados de salários iniciais 
da Tabela 3.1. 


Etapa 1: Organize os dados em ordem crescente. 


2710 2.755 7.850 2.880 2.880 2.890 2.920 2.940 2.950 3.050 3.130 3.325 
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Depois dessas 
etapas, torna-se 
mais fácil calcular o 
percentil. 
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Etapa 2: 


| p 85 
= |7 ји = |——112 = 10,2 
' (45) " (к) 
Etapa 3: Uma vez que i não é um número inteiro, arredonde-o para cima. А posição do 85º percentil 
é o número inteiro seguinte maior que 10,2, a 112 posição. 


Retornando aos dados, vemos que o 85° percentil é o valor de dados que está na 11º posição, ou seja, 
3.130. 

Como outra ilustração desse procedimento, consideremos o cálculo do 50º percentil dos dados de salá- 
rios iniciais. Aplicando a etapa 2, obtemos: 


Uma vez que i é um número inteiro, a etapa 3(b) afirma que o 50º percentil é a média do sexto e séti- 
mo valores de dados; dessa forma, o 50º percentil é (2.890 + 2.920)/2 = 2.905. Observe que o 50º percen- 
til é também a mediana. 


Quartis são apenas Quartis 
percentis . 9 in . 
específicos; desse Muitas vezes é desejável dividir os dados em quatro partes, tendo cada parte aproximadamente um quar- 


modo, as etapas to, ou 25% das observações. A Figura 3.1 mostra uma distribuição de dados dividida em quatro partes. Os 


para calcular pontos da divisáo denominam-se quartis e sáo definidos como: 
percentis podem . 
di as О, = primeiro quartil, ou 25? percentil 
iretamente no _ ` ` А А 
cálculo dos quartis. О» = o segundo quartil, ou 50° percentil (também, a mediana) 


Оз = o terceiro quartil, ou 75º percentil 


Os dados dos salários iniciais são novamente organizados em ordem crescente. Já identificamos Q^», o 
segundo quartil (mediana), como 2.905. 


2.710 2.755 7.850 2.880 2.880 2890 2.920 2.940 2.950 3.050 3.130 3.325 


O cálculo dos quartis О; e Q, requer o uso da regra aplicada para se encontrar o 25? e о 75? percentis. 
Os cálculos são os seguintes: 
Рага Qj, 


Primeiro quartil Segundo quarti! Terceiro quartil 
(25º percentil) (50º percentil) (75º percentil) 
(mediana) 


Visto que і é um número inteiro, a etapa 3(b) indica que o primeiro quartil, ou o 25º percentil, é a média 
do terceiro e quarto valores de dados; desse modo, Q; = (2.850 + 2.880)/2 = 2.865. 
Para Q4 . 


. p 75 ) 
= {Ё | = |12 = 
! (E) m ? 
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Novamente, desde que į é um número inteiro, a etapa 3(b) indica que o terceiro quartil, ou о 75º per- 
centil, é a média do nono e décimo valores de dados; assim, Q, = (2.950 + 3.050)/2 = 3.000. 

Os quartis dividem os dados de salários iniciais em quatro partes, e cada parte contém 25% das 
observações. 


2.710 2.755 2.850 | 2.880 2.880 2.890 | 2.920 2.940 2.950 | 3.050 3. 130 3.325 


О, = 2865 О, = 2905 Q, = 3000 
(Mediana) 


Definimos os quartis como o 25°, o 50? e o 75° percentis. Assim, calculamos os quartis da mesma 
maneira que calculamos os percentis. Entretanto, às vezes são usadas outras convenções para se calcular 
os quartis, e os valores reais atribuídos aos quartis podem variar ligeiramente, dependendo da convenção 
utilizada. Contudo, o objetivo de todos os procedimentos para se calcular quartis é dividir os dados em 
quatro partes iguais. 


NOTAS E COMENTÁRIOS 


Quando um conjunto de dados contém valores extremos, é melhor usar a mediana, em vez da média, 
como medida da posição central. Outra medida, às vezes usada quando se tem valores extremos, é a 
média ajustada. Ela é obtida excluindo-se uma porcentagem dos valores menores e maiores de um con- 
junto de dados e calculando-se então a média dos valores restantes. Por exemplo, a média ajustada de 
5% é obtida eliminando-se os 5% dos valores de dados menores e os 5% dos valores de dados maio- 
res e calculando-se depois a média dos valores restantes. Ao usarmos a amostra com л = 12 salários 
iniciais, teremos 0,05(12) = 0,6. O arredondamento desse valor para 1 indica que a média ajustada de 
5% significaria eliminar o menor valor de dados e o maior valor de dados. A média ajustada de 5%, 
usando-se as dez observações restantes, é 2.924,50, 


Exercícios 


Métodos 


1. Considere uma amostra com os valores de dados 10, 20, 12, 17 e 16. Calcule a média e a mediana. 
2. Considere uma amostra com os valores de dados 10, 20, 21, 17, 16 e 12. Calcule a média e a mediana. 


3. Considere uma amostra com os valores de dados 27, 25, 20, 15, 30, 34, 28 e 25. Calcule o 20°, o 25º, 
0 65? e o 75? percentis. 


4. Considere uma amostra com os valores de dados 53, 55, 70, 58, 64, 57, 53, 69, 57, 68 e 53. Calcule 
a média, a mediana e a moda. 


Aplicações 


5. А publicação Dow Jones Travel Index divulgou o valor que as pessoas que viajam a negócios pagam 
por pernoite em quartos de hotel nas principais cidades dos Estados Unidos (The Wall Street Journal, 
16 de janeiro de 2004). A média dos preços de quartos de hotel de 20 cidades são as seguintes: 


Atlanta $163 Minneapolis $125 
Boston 177 Nova Orleans 167 
Chicago 166 Nova York 245 
Cleveland 126 Orlando 146 
Dallas 123 Phoenix 139 
Denver | 120 Pittsburgh 134 
Detroit . 144 São Francisco 167 
Houston 173 Seattle 162 
Los Angeles 160 St. Louis 145 


Miami 192 Washington, D.C. 207 
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a. Qual é a média dos preços de quartos de hotel? 

b. Qual é a mediana dos preços de quartos de hotel? 

c. Qual é a moda? 

d. Qual é o primeiro quartil? 

e. Qual é o terceiro quartil? 

A І. D. Powers and Associates fez uma pesquisa de usuários de telefones celulares a fim de saber 
quantos minutos eles usavam telefones celulares por mês (Associated Press, junho de 2002). Os 
minutos por mês relativos a uma amostra de 15 usuários de telefones celulares são mostrados a seguir: 


615 135 395 
430 830 1180 
690 250 420 
265 245 210 
180 380 105 


a. Qual é a média de minutos de uso por més? 

b. Qual é a mediana de minutos de uso por més? 

c. Qual é o 852 percentil? 

d. A J. D. Powers and Associates divulgou que a média dos planos de assinatura de telefones sem fio 
permite até 750 minutos de uso por més. O que esses dados sugerem a respeito da utilizacáo que os 
assinantes de telefones celulares fazem de seus planos de assinatura mensal? 

A American Association of Individual Investors realizou uma pesquisa anual de discount brokers? 
(AAII Journal, janeiro de 2003). As comissões cobradas pelas 24 discount brokers para dois tipos de 
transações, a comercialização de 100 ações a US$ 50 por ação auxiliada por corretores e a comercia- 


lização on-line de 500 ações a US$ 50 por ação, são mostradas a Tabela 3.2. 


Tabela 3.2 Comissões cobradas pelas discount brokers 


Comercialização Comercialização 


Comercialização Comercialização 


de 100 Ações On-Line de de 100 Ações On-Line de 

а US$ 50 por Ação 500 Ações a a US$ 50 por Ação 500 Ações a 

Corretora Auxiliada por US$ 50 por Corretora Auxiliada por US$ 50 por 
Corretores Ação Corretores Ação 
Accutrade 30,00 29,95 Merrill Lynch Direct 50,00 29,95 
Ameritrade 24,99 10,99 Muriel Siebert. 45,00 14,95 
Banc of America 54,00 24,95 NetVest. 24,00 14,00 
Brown & Co, 17,00 5,00 Recom Securities 35,00 12,95 
Charles Schwab 55,00 29,95 Scottrade 17,00 7,00 
CyberTrader 12,95 9,95 Sloan Securities 39,95 19,95 
E*TRADE Securities 49,95 14,95 Strong Investments 55,00 24,95 
First Discount 35,00 19,75 TD Waterhouse 45,00 17,95 
Freedom Investments 25,00 15,00 T. Rowe Price 50,00 19,95 
Harrisdirect 40,00 20,00 Vanguard 48,00 20,00 
Investors National 39,00 62,50 Wall Street Discount 29,95 19,95 
MB Trading 9,95 10,55 York Securities 40,00 36,00 


Fonte: AAII Journal, janeiro de 2003. 


a. Calcule a média, a mediana e a moda da comissão cobrada na comercialização de 100 ações a US$ 50 


por acáo auxiliada por corretores. 


b. Calcule a média, a mediana e a moda da comissão cobrada na comercialização on-line de 500 ações 


a US$ 50 por acáo. 


c. O que custa mais: a comercialização de 100 ações a US$ 50 por ação auxiliada por corretores ou 


a comercialização on-line de 500 ações a US$ 50 por ação? 
d. O custo de uma transação se relaciona com o valor da transação? 


2 NT: Discount broker — As corretoras chamadas discount brokers, ou de descontos, oferecem serviços de operação financeira (com- 


pra e venda de futuros e opções da bolsa de valores) com foco na agilidade e na prática de preços. Elas apenas executam as ordens 
dos clientes, sem análise de papéis (economia). 
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8. Milhões de norte-americanos se levantam de manhã e realizam seu trabalho em escritórios residen- 
ciais, comunicando-se com a empresa por meios eletrônicos. Apresentamos, a seguir, uma amostra de 
dados de faixa etária de indivíduos que trabalham em casa: 

18 54 20 46 25 48 53 27 26 37 
40 36 42 25 27 33 28 40 45 25 

а. Calcule a média e a moda. 

b. A mediana da idade da população de todos os adultos é 35,5 anos (The World Almanac, 2004). Use 
a mediana de idade dos dados anteriores para comentar se as pessoas que trabalham em casa ten- 
dem a ser mais jovens ou mais velhas que a população de todos os adultos. 

c. Calcule o primeiro e o terceiro quartis. 

d. Calcule e interprete o 32? percentil. 

9. А Media Matrix coletou dados que mostram os websites mais populares quando se navega em casa e 
no trabalho (Business 2.0, janeiro de 2000). Os dados a seguir mostram o número de visitantes exclu- 
sivos (em milhares) dos 25 sites mais freqüentados quando se navega em casa: 

Visitantes Exclusivos 
Website (em milhares) 
about.com 5.538 
altavista.com 7.391 
amazon.com 7.986 
angelfire.com 8.917 
aol.com 23.863 
bluemountainarts.com 6.786 
ebay.com 8.296 
excite com 0.479 
geocities.com 5.321 
go.com 4.330 
hotbot.com 5.760 
hotmail.com 1791 
icq.com 5.052 
looksmart.com 5.984 
lycos.com 9.950 
microsoft.com 5.593 
msn.com 23.505 
netscape.com 4.470 
passport.com 1.299 
real.com 6.785 
snap.com 5.730 
tripod.com 7.970 
xoom.com 5.652 
yahoo.com 26.796 
zdnet.com 5.133 

a. Calcule a média e a mediana. 

b. Você acha que seria melhor usar a média ou a mediana como medida da posição central desses 
dados? Explique. 

c. Calcule o primeiro e o terceiro quartis. 

d. Calcule e interprete o 85° percentil. 

10. Uma pesquisa realizada pela American Hospital Association descobriu que as salas de emergência da 


maioria dos hospitais operam em plena capacidade (Associated Press, 9 de abril de 2002). A pesqui- 
sa coletou dados sobre os tempos de espera para as salas de emergência dos hospitais nos quais elas 
funcionam em plena capacidade e dos hospitais nos quais as salas de emergência encontram-se em 
equilíbrio e raramente operam em sua plena capacidade. Os dados de amostra que apresentam os tem- 
pos de espera em minutos são os seguintes: 
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Tempos de Espera para as Salas de Tempos de Espera para as Salas de 
Emergência dos Hospitais nos quais Emergência dos Hospitais nos quais 
Elas Funcionam em Plena Capacidade Elas Estão em Equilíbrio 

87 59 60 39 

80 to 54 32 

47 83 18 56 

73 79 29 26 

50 50 45 37 

93 66 34 38 

72 115 


11. 


12. 


a. Calcule a média e a mediana dos tempos de espera para as salas de emergência de hospitais nos 
quais elas funcionam em sua plena capacidade. 

b. Calcule a média e a mediana dos tempos de espera para as salas de emergência dos hospitais nos 
quais elas estão em equilíbrio. 

c. Quais observações você é capaz de fazer a respeito dos tempos de espera para as salas de emergên- 
cia baseando-se nesses resultados? A American Hospital Association expressaria alguma preocu- 
pação com os resultados estatísticos aqui mostrados? 


Em um teste automobilístico de quilometragem e consumo de gasolina, 13 automóveis foram testa- 
dos na estrada, em um percurso de 482,80 quilômetros, em condições de dirigibilidade tanto na cida- 
de como na rodovia. Os dados apresentados a seguir foram registrados para o desempenho obtido em 
termos de quilômetros por galáo.? 


Cidade 26,07 26,87 2558 23,17 21,24 24,62 27,03 25,74 2591 24,62 24,46 24,62 25,74 
Rodovia 30,57 32,18 28,96 29,93 30,89 27,35 27,35 28,96 30,57 33,95 31,22 28,96 28,96 


Use a média, a mediana e a moda para fazer uma afirmação sobre a diferença de desempenho quan- 
do se dirige na cidade e na rodovia. 


Os dados apresentados a seguir mostram o preço, a capacidade de imagem e o tempo de duração da 
bateria (em minutos) de 20 câmeras digitais (PC World, janeiro de 2000): 


Capacidade Duração da Bateria 
Câmera Preço (US$) de Imagem (em minutos) 
Agfa Ephoto CL30 349 36 25 
Canon PowerShot ASO 499 06 75 
Canon PowerShot Pro70 999 9 18 
Epson PhotoPC 800 699 20 99 
Fujifilm DX-10 299 30 229 
Fujifilm МХ-2700 699 41 24 
Fujifilm МХ-2900 Zoom 899 41 88 
НР PhotoSmart C200 299 80 68 
Kodak DC215 Zoom 399 54 59 
Kodak DC265 Zoom 899 80 86 
Kodak DC280 Zoom 799 245 43 
Minolta Dimage EX Zoom 1500 549 05 38 
Nikon Coolpix 950 999 32 88 
Olympus D-340R 299 22 6l 
Olympus D-450 Zoom 499 . 22 62 
Ricoh RDC-500 699 99 56 
Sony Cybershot DSC-F55 699 63 69 
Sony Mavica MVC-FD73 599 40 86 
Sony Mavica MVC-FD88 999 40 88 
Toshiba PDR-M4 599 24 42 


a. Calcule o preço médio. 

b. Calcule a média de capacidade de imagem. 

c. Calcule a média do tempo de duração da bateria. 

d. Se vocé tivesse de escolher uma cámera dessa lista, qual delas escolheria? Explique. 


3 NT: Galão: 3,78 litros. 
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3.2 MEDIDAS DE VARIABILIDADE 


Além das medidas de posição, frequentemente é desejável levarmos em consideração as medidas de varia- 
bilidade, ou de dispersão, Por exemplo, suponha que você seja um agente de compras de uma grande 
empresa de manufatura e que regularmente faça pedidos de compra a dois fornecedores diferentes. Depois 
de vários meses de operação, você descobre que o número médio de dias necessários para aviarem os pedi- 
dos é de dez dias para ambos os fornecedores. Os histogramas que sintetizam o número de dias úteis neces- 
sários para que os fornecedores aviem os pedidos são mostrados na Figura 3.2. Não obstante o número 
médio de dias ser dez para ambos os fornecedores, os dois fornecedores demonstram o mesmo grau de 
confiabilidade em termos de efetuarem as entregas no prazo devido? Note a dispersão, ou a variabilidade, 
dos prazos de entrega, indicada pelos histogramas. Qual fornecedor você preferiria? 

Para a maioria das empresas, receber matérias-primas e suprimentos no prazo programado é importan- 
te. Os prazos de entrega de sete ou oito dias mostrados para a J. C. Clark Distributors poderiam ser vistos 
favoravelmente; entretanto, algumas das entregas que se retardam de 13 a 15 dias poderiam ser desastro- 
sas em termos de manter a mão-de-obra ocupada e a produção dentro do prazo determinado. 


Figura 3.2 Dados históricos com o número de dias necessários para o aviamento dos pedidos de compra 
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Esse exemplo ilustra uma situação na qual a variabilidade nos prazos de entrega pode ter uma impor- 
tância fundamenta! na escolha de um fornecedor. Para a maioria dos agentes de compra, a menor variabi- 
lidade apresentada pela Dawson Supply, Inc. tornaria esse fornecedor o preferível. 

Voltamo-nos agora à discussão de algumas medidas de variabilidade comumente usadas. 


Amplitude 


A medida mais simples de variabilidade é a amplitude. 


AMPLITUDE 
Amplitude = Maior valor — Menor valor 


Consultemos os dados sobre salários iniciais dos graduados da escola de administração apresentados 
na Tabela 3.1. O maior salário inicial é 3.325 e o menor, 2.710. A amplitude é 3.325 — 2.710 = 615. 

Ainda que a amplitude seja a medida de variabilidade mais fácil de calcular, raramente ela é usada 
como a única medida. A razão para isso é que a amplitude se baseia somente em duas das observações e, 
desse modo, é altamente influenciada por valores extremos. Suponha que um dos graduados receba um 
salário inicial de US$ 10.000 por mês. Nesse caso, a amplitude seria 10.000 — 2.710 = 7.290 em vez de 
615. Esse valor elevado para a amplitude não descreveria de maneira especial a variabilidade dos dados, 
porque 11 dos 12 salários iniciais estão estreitamente agrupados entre 2.710 e 3.130. 
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Amplitude Interquartil 


Uma medida da variabilidade que supera a dependência de valores extremos é a amplitude interquartil 
(AIQ). Essa medida da variabilidade é a diferença entre o terceiro quartil, Оз, e o primeiro quartil, Q}. Em 
outras palavras, a amplitude interquartil é o intervalo correspondente aos 50% dos dados intermediários. 


AMPLITUDE INTERQUARTIL 
| АЮ = 03-01 (3.3) 


Em relação aos dados sobre salários mensais iniciais, os quartis são Q4 = 3.000 e Q, = 2.865. Desse 
modo, a amplitude interquartil é 3.000 — 2.865 = 135. 


Variância 


Variância é a medida da variabilidade que utiliza todos os dados. A variância baseia-se na diferença entre 


-o valor de cada observação (xj) e a média. A diferença entre cada x; e a média (x para uma amostra eu 


para uma população) denomina-se desvio em torno da média. Para uma amostra, o desvio em torno da 
média é escrito como (x; – X); para uma população, ele é escrito como (x; — и). No cálculo da variância, 
os desvios em torno da média são elevados ao quadrado. 

Se os dados se referirem a uma população, a média dos desvios elevados ao quadrado denomina-se 
variância da população. A variância da população é denotada pelo símbolo grego 02. Para uma popula- 
ção de № observações, com и denotando a média da população, a definição da variância da população é a 
seguinte: 


VARIÂNCIA DA POPULAÇÃO 
o= Хаи (3.4) 


Na maioria das aplicações estatísticas, os dados que são analisados referem-se a uma amostra. Quando 
calculamos a variância de uma amostra, frequentemente nos interessa usá-la para estimar a variância da 
população о?. Não obstante a explicação detalhada estar além do escopo deste livro, pode-se demonstrar 
que se a soma dos desvios em torno da média da amostra elevados ao quadrado for dividida por n — 1, е 
não por п, a resultante variância da amostra fornecerá uma estimativa sem tendenciosidade da variância da 
população. Por essa razão, a variância da amostra, denotada рог 52, é definida da seguinte maneira: 


VARIÂNCIA DA AMOSTRA 


g- EQj-xy 
= n-1 (3.5) 


Para ilustrar o cálculo da variáncia da amostra usaremos os dados dos tamanhos de classe da amostra 
de cinco classes universitárias apresentados na Seção 3.1. Um resumo dos dados, incluindo o cálculo dos 
desvios em torno da média e os desvios em torno da média elevados ao quadrado, é mostrado na Tabela 
3.3. А soma dos desvios em torno da média elevados ao quadrado é X(x; — XY? = 256. Portanto, com 
п— 1 = 4, a variância da amostra é 


g- X; -xp 256 
п-1 4 


Antes де prosseguir, vamos notar que as unidades associadas à variáncia da amostra muitas vezes cau- 
sam confusáo. Uma vez que os valores que sáo somados no cálculo da variáncia, (xj — X)2, estão elevados 
ao quadrado, as unidades associadas à variância da amostra também são elevadas ao quadrado. Por exem- 
plo, a variância da amostra dos dados de tamanhos de classe é 52 = 64 (estudantes)? 
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Tabela 3.3 Cálculo dos desvios e dos desvios em torno da média elevados 
ao quadrado dos dados de tamanhos de classe 


Número de Média da Desvio em Desvio em Torno da 
Estudantes na Amostra Torno da Média Média Elevado ao Quadrado 
Classe (x) (х). (x;- X) (х; - 39 
46 44 2 f 4 
54 44 10 100 
42 44 22 4 
46 44 2 4 
32 ` 44 212 144 
0 256 
5% -) EG - х)? 


As unidades elevadas ao quadrado associadas à variância tornam difícil obter uma compreensão e uma 
interpretação intuitivas do valor numérico da variância. Recomendamos que você considere a variância 
uma medida útil ao comparar a quantidade de variabilidade de duas ou mais variáveis. Em uma compara- 
ção de variáveis, aquela que tem a maior variância exibe mais variabilidade. Uma interpretação adicional 
do valor da variância talvez não seja necessária. 

Como outra ilustração do cálculo de uma variância da amostra, considere os salários iniciais relacio- 
nados na Tabela 3.1 para os 12 graduados da escola de administração. Na Seção 3.1 mostramos que a 
média dos salários iniciais da amostra era 2940. O cálculo da variância da amostra (s2 = 27.440,91) é mos- 
trado na Tabela 3.4. 


Tabela 3.4 Cálculo da variância da amostra dos dados de salários iniciais 


Salário Média da Desvio em Desvio em Torno da Média 
Mensal Amostra Torno da Média Elevado ao Quadrado 

(x) (9) (4-9 ЕУ 
2.850 2.940 —90 8.100 
2,950 2.940 10 100 
3.050 2.940 110 12.100 
2.880 2.940 —60 3.600 
2.755 2.940 —|85 34.225 
2.710 2.940 —230 52.900 
2.890 2.940 —50 2.500 
3.130 2.940 190 36.100 
2.940 2.940 0 0 
3.325 2.940 385 148.225 
2.920 2.940 —20 400 
2.880 2.940 —60 3.600 
0 301,850 
Y – х) Уф; 8 


Usando a Equação 3.5, 


(5—x) 30.850 
92 = = р 7 27:44091 


Nas Tabelas 3.3 е 3.4 mostramos tanto a soma dos desvios em torno da média сото a soma dos des- 
vios em torno da média elevados ao quadrado. Para qualquer conjunto de dados, a soma dos desvios em 
torno da média sempre será igual a zero. Note que nas Tabelas 3.3 e 3.4, Z(x; — X) = 0. Os desvios posi- 
tivos e os desvios negativos se cancelam mutuamente, fazendo que a soma dos desvios em torno da média 
seja igual a zero. 
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Desvio Padrão 


O desvio padrão é definido como a raiz quadrada positiva da variância. Seguindo a notação que adotamos 
para uma variância da amostra e para uma variância da população, usamos s para denotar o desvio padrão 
da amostra e s para denotar o desvio padrão da população. O desvio padrão é derivado da variância da 
seguinte maneira: 


DESVIO PADRÃO 
Desvio padrão da amostra = s = vs? (3.6) 


(3.7) 


Desvio padrão da população = o = 


Lembre-se de que a variância da amostra referente à amostra de tamanhos de classe de cinco classes 
universitárias é 52 = 64. Desse modo, o desvio padrão da amostra é s = 64 = 8. Em relação aos dados 
sobre salários iniciais, o desvio padrão da amostra é s = v27.440,91 = 165,65. 

O que se ganha ao converter a variância em seu correspondente desvio padrão? Lembre-se de que as 
unidades associadas à variância são elevadas ao quadrado. Por exemplo, a variância da amostra dos dados 
de salários iniciais dos graduados da escola de administração é 52 = 27.440,91 (dólares)2. Uma vez que o 
desvio padrão é a raiz quadrada da variância, as unidades da variância (dólares elevados ao quadrado) são 
convertidas em dólares no desvio padrão. Assim, o desvio padrão dos dados de salários iniciais é 
US$ 165,65. Em outras palavras, o desvio padrão é medido nas mesmas unidades que os dados originais. 
Por esse motivo, o desvio padrão é mais facilmente comparado à média e a outros dados estatísticos que 
são medidos nas mesmas unidades que os dados originais. 


Coeficiente de Variação 


Em algumas situações, podemos estar interessados em uma estatística descritiva que indique qual é o tama- 
nho do desvio padrão em relação à média. Essa medida é chamada coeficiente de variação e geralmente 
é expressa como uma porcentagem. 


COEFICIENTE DE VARIAÇÃO 
( Desvio padrão 


Mela x 00) (3.8) 


Em relagáo aos dados de tamanhos de classe, descobrimos que a média da amostra é 44 e que o desvio 
padrão da amostra é 8. O coeficiente de variação é [(8/44) x 100]% = 18,2%. Expressamente, o coeficien- 
te de variação nos diz que o desvio padrão da amostra é 18,2% do valor da média da amostra. Em relação 
aos dados de salários iniciais com uma média de amostra igual a 2.940 e um desvio padrão da amostra igual 
a 165,65, o coeficiente de variação, [(165,65/2.940) x 100]% = 5,6%, nos diz que o desvio padrão da amos- 
tra é somente 5,6% do valor da média da amostra. Em geral, o coeficiente de variação é uma estatística útil 
para compararmos a variabilidade de variáveis que têm desvios padrão diferentes e médias diferentes. 


NOTAS E COMENTÁRIOS 


1. Pacotes de software estatístico e planilhas eletrônicas podem ser usados para desenvolver a estatística 
descritiva apresentada neste capítulo. Depois que os dados são introduzidos em uma planilha, alguns 
comandos simples podem ser utilizados para gerar os dados de saída (outpur) desejados. Nos 
Apêndices 3.1 e 3.2, mostramos como o Minitab e o Excel podem ser usados para desenvolver estatís- 
ticas descritivas. 


2. O desvio padrão é uma medida usada comumente para se calcular o risco associado ao investimento em 
ações e fundos de ações (Business Week, 17 de janeiro de 2000). Ele fornece uma medida de como os 
retornos mensais flutuam em torno dos retornos médios de longo prazo. 


3. Arredondar o valor da média da amostra x e os valores dos desvios elevados ao quadrado (x; — X pode 
levar a erros quando se usa uma calculadora para calcular a variância e o desvio padrão. Para reduzir 
os erros de arredondamento, recomendamos utilizar pelo menos seis dígitos significativos durante os 
cálculos intermediários. A variância ou o desvio padrão resultante pode então ser arredondado para 
uma quantidade menor de dígitos. 
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4. Uma fórmula alternativa para o cálculo da variáncia da amostra é 
sg XxX-ar 
n-l1 
emque Ex? =x? +x +... Ha. 
Exercícios 
Métodos 
13. Considere uma amostra com os valores de dados 10, 20, 12, 17 e 16. Calcule a amplitude e a ampli- 
tude interquartil, 
14. Considere uma amostra com os valores de dados 10, 20, 12, 17 e 16. Calcule a variância e o desvio 
padrão. 
15. Considere uma amostra com os valores de dados 27, 25, 20, 15, 30, 34, 28 e 25. Calcule a amplitu- 
de, a amplitude interquartil, a variância e o desvio padrão. 
Aplicações 
16. As pontuações de um jogador de boliche em seis jogos foram 182, 168, 184, 190, 170 e 174. Usando 
esses dados como uma amostra, calcule as seguintes estatísticas descritivas: 
a. Amplitude 
b. Variância 
c. Desvio padrão 
d. Coeficiente de variação 
17. Um home theater compacto é a maneira mais fácil e mais barata de obter surround sound em um cen- 
tro de diversão doméstico. Uma amostra de preços é apresentada a seguir (Consumer Reports Buying 
Guide, 2004). Os preços referem-se a modelos com DVD player e a modelos sem DVD player. 
Modelos com DVD Player Preço Modelos sem DVD Player — . Preco 
Sony HT-1800DP $450 Pioneer HTP-230 $300 
Pioneer HTD-330DV 300 Sony HT-DDW750 300 
Sony HT-C800DP 400 Kenwood HTB-306 360 
Panasonic SC-HT900 500 RCA RT-2600 290 
Panasonic SC-MTI 400 Kenwood HTB-206 300 
a. Calcule a média de preços para modelos com DVD player e a média de preços para modelos sem 
DVD player. Qual é o prego adicional que se paga para ter um DVD player incluído em uma uni- 
dade de home theater? 
b. Calcule a amplitude, a variância e o desvio padrão das duas amostras. O que essa informação Ihe 
diz a respeito dos preços de modelos com e sem um DVD player? 
18. Os preços de aluguel de carro por dia de uma amostra de sete cidades da região leste dos Estados 


Unidos são os seguintes (The Wall Street Journal, 16 de janeiro de 2004): 


Cidade Taxa Diária 
Boston $43 
Atlanta 35 
Miami 34 
Nova York 58 
Orlando 30 
Pittsburgh 30 
Washington, D.C. 36 


a. Calcule a média, a variância e o desvio padrão dos preços de aluguel de carros. 

b. Uma amostra similar de sete cidades da região oeste dos Estados Unidos apresentou um preço 
médio da amostra correspondente a US$ 38 por dia para o aluguel de carros. A variância e o desvio 
padrão foram 12,3 e 3,5, respectivamente. Discuta quaisquer diferenças entre os preços de aluguel 
de carros nas cidades do oeste e do leste dos Estados Unidos. 
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19. 


20. 


21. 


O Los Angeles Times publica regularmente um índice da qualidade do ar de várias regióes do sul da 
Califórnia. Uma amostra dos valores relativos ao índice da qualidade do ar em Pomona forneceu os 
seguintes dados: 28, 42, 58, 48, 45, 55, 60, 49 e 50. 


а. Calcule a amplitude e a amplitude interquartil. 

b. Calcule a variância da amostra e o desvio padrão da amostra, 

c. Uma amostra de leituras do índice da qualidade do ar em Anaheim forneceu a média da amostra 
igual a 48,5, uma variância da amostra igual a 136 e o desvio padrão da amostra igual a 11,66. 
Quais comparações você pode fazer entre a qualidade do ar em Pomona e em Anaheim baseando- 
se nessas estatísticas descritivas? 


Os dados apresentados a seguir foram usados para construir os histogramas do número de dias neces- 
sários para a Dawson Supply Inc. e a J. C. Clark Distributors emitirem os pedidos de compra (veja a 
Figura 3.2): 

Prazos (Dias) de Entrega da Dawson Supply 11 10 9 10 11 11 10 11 10 10 
Prazos (Dias) de Entrega da Clark Distributors 8 10 13 7 10 11 10 7 15 12 


Use a amplitude e o desvio padrão para sustentar a observação anterior de que a Dawson Suply apre- 
senta os prazos de entrega mais coerentes e confiáveis. 


Como os custos dos produtos de mercearia se comparam em todo o território nacional? Usando uma 
cesta básica de dez itens que incluem farinha de trigo, leite, pão, ovos, café, batatas, cereais e suco de 
laranja, a revista Where to Retire calculou o custo da cesta básica em seis cidades e em seis retire- 
ment areas* de várias partes do território nacional dos Estados Unidos (Where to Retire, novem- 
bro/dezembro de 2003). Os dados sobre o custo da cesta básica com o menor preço em dólares são 
os seguintes: 


Cidade Custo Retirement Area Custo 


Buffalo, NY $33 Biloxi-Gulfport, MS $29 
Des Moines, IA 27 Asheville, NC 32 
Hartford, CT 32 Flagstaff, AZ 32 
Los Angeles, CA 38 . Hilton Head, SC 34 
Miami, FL 36 Fort Myers, FL 34 
Pittsburgh, PA 32 Santa Fe, NM 3l 


22. 


23. 


a. Calcule a média, a variância e o desvio padrão da amostra de cidades e da amostra de retirement 
areas. 
b. Quais observações podem ser feitas com base nas duas amostras? 


A American Association of Individual Investors realizou uma pesquisa anual de discount brokers 
(ААП Journal, janeiro de 2003). As comissões cobradas pelas 24 discount brokers para dois tipos de 
transações, a comercialização de 100 ações a US$ 50 por ação auxiliada por corretores e a comercia- 
lização on-line de 500 ações a US$ 50 por ação, são mostradas na Tabela 3.2. 


a. Calcule a amplitude e a amplitude interquartil de cada tipo de transação. 

b. Calcule a variância e o desvio padrão de cada tipo de transação. 

c. Calcule o coeficiente de variação de cada tipo de transação. 

d. Calcule a variabilidade de custo dos dois tipos de transação. 

A revista PC World publicou avaliações de 15 computadores notebook (PC World, fevereiro de 2000). 
Foi utilizada uma escala de 100 pontos para fornecer uma classificação global de cada notebook. Uma 
pontuação na casa dos 90 é excepcional, ao passo que uma pontuação na casa dos 70 é considerada 
boa. As avaliações globais dos 15 notebooks são mostradas a seguir: 


^ NT: Lugar tranqüilo, afastado das grandes cidades, para onde se mudam as pessoas depois de se aposentarem. Lugar de descanso 
e lazer; retiro. 
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Notebook Classsificação Geral 
AMS Tech Roadster | SCTA380 67 
Compaq Armada M700 78 
Compaq Prosignia Notebook 150 79 
Dell Inspiron 3700 C466GT 80 
Dell inspiron 7500 R500VT 84 
Deli Latitude Cpi A366XT 76 
Enpower ENP-313 Pro 77 
Gateway Solo 930015 92 
HP Pavilion Notebook PC 83 
IBM ThinkPad | Series 1480 78 
Micro Express NP7400 77 
Micron TransPort NX PII-400 78 
NEC Versa SX 78 
Sceptre Soundx 5200 73 
Sony VAIO PCG-F340 77 


Calcule a amplitude, a amplitude interquartil e o desvio padráo dessa amostra de computadores note- 
book. 


24. Foram registrados os seguintes tempos pelos corredores de 400 e 1.600 metros de uma equipe de atle- 
tismo de uma universidade (os tempos estão expressos em minutos): 


Tempos para 400 Metros: 0,92 0,98 1,04 0,90 0,99 
Tempos para 1.600 Metros: 4,52 4,35 4,60 4,70 4,50 


Depois de ver essa amostra de tempos de corrida, um dos treinadores comentou que os corredores de 
400 metros apresentaram tempos mais constantes. Use o desvio padrão e o coeficiente de variação 
para sintetizar a variabilidade dos dados. O uso do coeficiente de variação indica que a afirmação do 
treinador se justifica? 


3.3 MEDIDAS DA FORMA DA DISTRIBUIÇÃO, DA POSIÇÃO 
RELATIVA E DETECÇÃO DE PONTOS FORA DA CURVA 


Descrevemos diversas medidas de posição e de variabilidade dos dados. Além disso, muitas vezes é impor- 
tante ter-se a medida da forma de uma distribuição. No Capítulo 2, observamos que um histograma forne- 
ce uma apresentação gráfica que mostra a forma de uma distribuição. Uma medida numérica importante 
da forma de uma distribuição é chamada assimetria. 


Forma da Distribuição 


A Figura 3.3 mostra quatro histogramas construídos a partir de distribuições de freqüéncia relativa. Os his- 
togramas dos painéis A e B estão moderadamente inclinados. O do painel A está inclinado à esquerda; sua 
assimetria é de —0,85. O histograma do painel B está inclinado à direita; sua assimetria é de +0,85. O his- 
tograma do painel C é simétrico; sua assimetria é nula. O histograma do painel D é fortemente inclinado 
à direita; sua assimetria é 1,62. A fórmula usada para calcular a assimetria é um tanto сотріеха:5 
Entretanto, a assimetria pode ser prontamente calculada utilizando-se software estatístico (veja os 
Apêndices 3.1 e 3.2). Para dados inclinados à esquerda, a assimetria é negativa; para dados inclinados à 
direita, a assimetria é positiva. Se os dados são simétricos, a assimetria é nula. 

Para uma distribuição simétrica, a média e a mediana são iguais. Quando os dados são inclinados posi- 
tivamente, a média geralmente será maior que a mediana; quando os dados são inclinados negativamente, a 
média normalmente será menor que a mediana. Os dados utilizados para construir o histograma do painel 
D são de compras efetuadas por clientes em uma loja de vestuário feminino. A média do valor das compras 
é US$ 77,60 e a mediana do valor das compras é US$ 59,70. Os relativamente poucos valores de compra 
elevados tendem a ampliar a média, ao passo que a mediana não é afetada pelos valores de compra eleva- 
dos. A mediana constitui a medida de posição preferível quando os dados são fortemente assimétricos. 


5 A fórmula para calcular a assimetria de amostras é: 


M n х ғ} 
Assimettia = 00 Y 5 ) 
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Figura 3.3 Histogramas que indicam a assimetria de quatro distribuições 


Painel A: Moderadamente Inclinado à Esquerda Painel B: Moderadamente Inclinado à Direita 
Assimetria — — 0,85 Assimetria — 0,85 


Painel С: Simétrico Painel D: Fortemente Inclinado à Direita 
Assimetria = 0 Assimetria = 1,62 


Contagens-z 


Além das medidas de posição, de variabilidade e de forma, também estamos interessados na posição rela- 
tiva dos valores contidos em um conjunto de dados. As medidas de posição relativa nos ajudam a determi- 
nar quão afastado um valor em particular está da média. 

Usando tanto a média como o desvio padrão, podemos determinar a posição relativa de qualquer obser- 
vação. Suponha que temos uma amostra de п observações, sendo os valores denotados por ху, x». . . . , Xy. 
Além disso, suponha que a média da amostra, X, e o desvio padráo da amostra, s, já tenham sido calcula- 
dos. Associado a cada valor, x; há outro valor que se chama contagem-z. A Equação (3.9) mostra como a 
contagem-z é calculada para cada x;. 


CONTAGEM-z 
z=% (3.9) 


em que 
z=a contagem-z para x; 
X= a média da amostra 
5 = о desvio padrão da amostra 


A contagem-z muitas vezes é denominada valor padronizado. A contagem-z, z;, pode ser interpretada 
como o número de desvios padrão que x; está afastado da média х. Por exemplo, z, = 1,2 indicaria que 
xı é 1,2 desvio padrão maior que a média da amostra. Similarmente, z} = —0,5 indicaria que x, é 0,5, ou 
1/2, desvio padrão menor que a média da amostra. Ocorre uma contagem-z maior que zero para observa- 
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ções com um valor maior que a média, e ocorre uma contagem-z menor que zero para observações com 
um valor menor que a média. Uma contagem-z igual a zero indica que o valor da observação é igual à 
média. 

A contagem-z de qualquer observação pode ser interpretada como uma medida da posição relativa da 
observação no conjunto de dados. Desse modo, pode-se dizer que as observações feitas em dois diferen- 
tes conjuntos de dados que possuem a mesma contagem-z têm a mesma posição relativa em termos de esta- 
rem o mesmo número de desvios padrão afastados da média. 

As contagens-z dos dados de tamanhos de classe estão calculadas na Tabela 3.5. Lembre-se da média 
da amostra, х = 44, e do desvio padrão, s = 8, calculados anteriormente. A contagem-z de —1,50 corres- 
pondente à quinta observação mostra que é a mais afastada da média; ela está 1,50 desvio padrão abaixo 
da média. 


Tabela 3.5 Contagens-z dos dados de tamanhos de classe 


Número de Desvio em Torno Contagem-z 
Estudantes na da Média x, – X 

Classe (xj) Gg — X) E 
46 2: 2/82 25 
54 10 10/8 = 1,25 
42 -2 22/8 = —25 
46 2 28 = 25 
32 -12 212/8 = —1,50 


Teorema de Chebyshev 


O teorema de Chebyshev nos permite fazer afirmações acerca da proporção de valores de dados que 
devem estar contidos em um nümero específico de desvios padráo da média. 


TEOREMA DE CHEBYSHEV 


Pelo menos (1 — 1/22) dos valores de dados devem estar contidos em 2 desvios padrão da média, em 
que z é qualquer valor maior que 1. 


Algumas das aplicações desse teorema, com z = 2, 3 e 4 desvios padrão, são as seguintes: 


* Pelo menos 0,75, ou 75%, dos valores de dados devem estar contidos em 2 = 2 desvios padráo da média. 
* Pelo menos 0,89, ou 89%, dos valores de dados devem estar contidos em z = 3 desvios padrão da média. 
* Pelo menos 0,94, ou 94%, dos valores de dados devem estar contidos em z = 4 desvios padrão da média. 


Como um exemplo do uso do teorema de Chebyshev, suponha que as notas dos exames semestrais de 
100 estudantes de um curso de estatística de uma escola de administração tenham obtido a média 70 e um 
desvio padrão igual a 5. Quantos estudantes tiveram notas de exame entre 60 e 80? Quantos estudantes 
tiveram notas entre 58 e 82? 

Em relação às notas entre 60 e 80, observamos que 60 está dois desvios padrão abaixo da média e que 
80 está dois desvios-padrão acima da média. Usando o teorema de Chebyshev, vemos que pelo menos 
0,75, ou pelo menos 75%, das observações devem ter valores que estão dentro dos desvios padrão da 
média. Dessa forma, pelo menos 75% dos estudantes devem ter obtido notas entre 60 e 80. 

Em relação às notas entre 58 e 82, vemos que (58 — 70)/5 = —2,4 indica que 58 está 2,4 desvios padrão 
abaixo da média e que (82 — 70)/5 = +2,4 indica que 82 está 2,4 desvios padrão acima da média. Aplicando 
o teorema de Chebyshev com z = 2,4, obtemos: 


1 1 
(1 = 2) = (1 = aa) = 0,826 


Pelo menos 82,6% dos estudantes devem ter notas de exame entre 58 e 82. 


89 


O teorema de 
Chebyshev requer 
z> |; masz não 
precisa ser um 
número inteiro. 
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A regra empírica 
baseia-se na 
distribuição de 
probabilidade 
normal, que será 
discutida no 
Capítulo 6. A dis- 
tribuição normal é 
extensamente 
utilizada em todo 
olivro. 
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Regra Empírica 


Uma das vantagens do teorema de Chebyshev é que ele se aplica a qualquer conjunto de dados, indepen- 
dentemente da forma da distribuição dos dados. Realmente, ele poderia ser usado com qualquer uma das 
distribuições da Figura 3.3. Em muitas aplicações práticas, no entanto, os conjuntos de dados exibem 
uma distribuição simétrica em forma de morro ou de sino, como é mostrado na Figura 3.4. Quando se 
acredita que os dados se aproximam dessa distribuição, pode-se usar a regra empírica para determinar a 
porcentagem de valores de dados que devem estar contidos em um número específico de desvios padrão 
da média. 


REGRA EMPÍRICA 
Para dados que têm uma distribuição em forma de sino: 
* Aproximadamente 68% dos valores de dados estarão contidos em um desvio padrão da média. 


* Aproximadamente 95% dos valores de dados estarão contidos em dois desvios padrão da média. 
* Quase todos os valores de dados estarão contidos em três desvios padrão da média. 


Figura 3.4 Uma distribuição simétrica em forma de morro ou sino 


Por exemplo, as embalagens de detergente líquido são preenchidas automaticamente em uma linha de 
produção. Os volumes de preenchimento frequentemente têm uma distribuição em forma de sino. Se a 
média dos volumes de preenchimento for 16 onças e o desvio padrão, 0,25 onça, podemos usar a regra 
empírica para tirar as seguintes conclusões: 


* Aproximadamente 68% das embalagens cheias terão cargas entre 15,75 onças e 16,25 onças (dentro de 
um desvio padrão da média). 


* Aproximadamente 95% das embalagens cheias terão cargas entre 15,50 onças e 16,50 onças (dentro de 
dois desvios padrão da média). 


* Quase todas as embalagens cheias terão cargas entre 15,25 onças e 16,75 onças (dentro de três desvios 
padrão da média). 


Detecção de Pontos Fora da Curva 


Às vezes, um conjunto de dados terá uma ou mais observações com valores excepcionalmente grandes ou 
pequenos. Esses valores extremos são chamados pontos fora da curva. Estatísticos experientes tomam 
medidas para identificar os pontos fora da curva e depois revêem cada um deles minuciosamente. Um 
ponto fora da curva pode ser um valor de dados que foi incorretamente registrado. Se assim for, ele pode 
ser corrigido antes de prosseguir a análise. Um ponto fora da curva também pode ser proveniente de uma 
observação que foi incorretamente incluída no conjunto de dados; nesse caso, ela pode ser eliminada. 
Finalmente, um ponto fora da curva pode ser um valor de dados incomum que foi registrado corretamen- 
te e que pertence ao conjunto de dados. Nesses casos, ele deve permanecer. 
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Valores padronizados (contagens-z) podem ser usados para identificar pontos fora da curva. Lembre-se 
de que a regra empírica nos permite concluir que, em relação a dados com uma distribuição em forma de 
sino, quase todos os valores de dados estarão contidos em três desvios padrão da média. Portanto, ao usar 
contagens-z para identificar pontos fora da curva, recomendamos tratar quaisquer valores de dados com 
uma contagem-z menor que —3 ou maior que +3 como um ponto fora da curva. Esses valores de dados podem 
então ser revisados quanto à precisão e para determinar se pertencem ao conjunto de dados. 

Consulte as contagens-z referentes aos dados de tamanhos de classe da Tabela 3.5. A contagem-z igual 
a —1,50 mostra que o quinto tamanho de classe é o mais afastado da média, Entretanto, esse valor padro- 
nizado está bem dentro da diretriz —3 a +3 para pontos fora da curva. Desse modo, as contagens-z não indi- 
cam se há pontos fora da curva nos dados de tamanho de classe. 


NOTAS E COMENTÁRIOS 


1. O teorema de Chebyshev é aplicável a qualquer conjunto de dados e pode ser usado para estabelecer o 
número mínimo de valores de dados que estarão dentro de certo número de desvios padrão da média. 
Quando se sabe que os dados têm aproximadamente a forma de sino, pode-se dizer mais coisas. Por 
exemplo, a regra empírica nos permite dizer que aproximadamente 95% dos valores de dados estarão 
dentro de dois desvios padrão da média; o teorema de Chebyshev nos permite concluir somente que 
pelo menos 75% dos valores de dados estarão nesse intervalo. 


2. Antes de analisar um conjunto de dados, os estatísticos geralmente fazem uma série de verificações 
para assegurar a validade dos dados. Em um estudo de grande porte não é incomum a ocorrência de 
erros ao registrar valores de dados ou ao digitá-los no computador. Identificar pontos fora da curva é 
uma ferramenta utilizada para conferir a validade dos dados. 


Exercícios, 


Métodos 


25. Considere uma amostra com os valores de dados 10, 20, 12, 17 e 16. Calcule a contagem-z de cada 
uma das cinco observações. 

26. Considere uma amostra com a média 500 e desvio padrão 100. Quais são as contagens-z dos seguin- 
tes valores de dados: 520, 650, 500, 450 e 280? 

27. Considere uma amostra com a média 30 e desvio padráo 5. Use o teorema de Chebyshev para deter- 
minar a porcentagem dos dados que se encontram dentro de cada uma das seguintes amplitudes: 
a. 20 a 40 
b. 15a 45 
c. 22 а 38 
d. 18 a 42 
е. 12a 48 

28. Suponha que os dados tenham uma distribuição em forma de sino com uma média igual a 30 e desvio 
padráo, 5. Use a regra empírica para determinar a porcentagem de dados que se encontram dentro de 
cada uma das seguintes amplitudes: 
а. 20a 40 
b. 15a 45 
с. 25 а 35 


Aplicações 


29. Os resultados de uma pesquisa em nível nacional mostraram que, em média, os adultos dormem 6,9 
horas por noite (2000 Omnibus Sleep in America Poll). Suponha que o desvio padrão seja de 1,2 hora. 
a, Use o teorema de Chebyshev para calcular a porcentagem de indivíduos que dormem entre 4,5 e 
9,3 horas. 
b. Use o teorema de Chebyshev para calcular a porcentagem de indivíduos que dormem entre 3,9 e 
9,9 horas. 
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É uma boa idéia 
verificar se há 
pontos fora da 
curva antes de 
tomar decisões 
baseadas em 
análise de dados. 
Freqüentemente 
se cometem erros 
ao fazer o registro 
de dados e ao 
digitá-los no 
computador. 
Pontos fora da 
curva não devem 
ser necessaria- 
mente excluídos, 
mas sua precisão e 
adequabilidade 
devem ser 
verificadas. 
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30, 


31, 


32. 


33. 


c. Suponha que o número de horas de sono segue uma distribuição em forma de sino. Use a regra 
empírica para calcular a porcentagem de indivíduos que dormem entre 4,5 e 9,3 horas por dia. 
Como esse resultado se compara com o valor que você obteve ao usar o teorema de Chebyshev do 
item (a)? 

A Energy Information Administration publicou que o preço médio de varejo por galão de gasolina 

comum era US$ 1,47 (The Wall Street Journal, 30 de janeiro de 2003). Suponha que o desvio padrão 

tenha sido US$ 0,08 e que o preço de varejo por galão tenha uma distribuição em forma de sino. 


a. Qual porcentagem de gasolina comum foi vendida entre US$ 1,39 e US$ 1,55 por galão? 
b. Qual porcentagem de gasolina comum foi vendida entre US$ 1,39 e US$ 1,63 por galão? 
c. Qual porcentagem de gasolina comum foi vendida a mais de US$ 1,63 e por galão? 


A média nacional para a parte oral do College Board's Scholastic Aptitude Test (SAT)6 é 507 (The 
World Almanac, 2004). O College Board reescalona periodicamente as notas do exame de tal forma 
que o desvio padráo seja aproximadamente 100. Responda às perguntas a seguir usando urna distri- 
buição em forma de sino e a regra empírica para as notas do exame oral. 


a. Qual é a porcentagem dos estudantes que têm notas superiores a 607 no exame oral do SAT? 
b. Qual é a porcentagem dos estudantes que notas superiores a 707 no exame oral do SAT? 

c. Qual é a porcentagem dos estudantes que têm notas entre 407 e 507 no exame oral do SAT? 

d. Qual é a porcentagem dos estudantes que têm notas entre 307 e 607 no exame oral do SAT? 


Os elevados custos praticados no mercado imobiliário da Califórnia fizeram que as famílias que não 
possam se dar ao luxo de comprar casas maiores considerem as construções de quintal como uma forma 
alternativa de expandir suas residências. Muitas utilizam as estruturas existentes em seus quintais como 
escritórios, estúdios artísticos e áreas de lazer, bem como para armazenamento adicional. O preço médio 
de uma construção de quintal personalizada, feita em madeira e coberta com telhas de amianto é 
US$ 3.100 (Newsweek, 29 de setembro de 2003). Suponha que o desvio padrão seja US$ 1.200. 


a. Qual é a contagem-z de uma estrutura de quintal que custa US$ 2.300? 

b. Qual é a contagem-z de uma estrutura de quintal que custa US$ 4.900? 

c. Interprete a contagem-z dos itens (a) e (b). Comente se um deles seria considerado um ponto fora 
da curva.- 

d. O artigo da Newsweek descreveu a combinação de uma edícula-escritório construída em Albany, 
Califórnia, por US$ 13 mil. Essa estrutura deveria ser considerada um ponto fora da curva? 
Explique. 

A Wageweb realiza pesquisas de dados salariais e apresenta sumários em seu site. Os salários regis- 

trados para gerentes de benefícios variam de US$ 50.935 a US$ 79.577 (Wageweb.com, 12 de abril 

de 2000). Suponha que os dados a seguir sejam uma amostra dos salários anuais de 30 gerentes de 
benefícios. Os dados estão expressos em milhares de dólares: 


57,7 64,4 62,1 59,1 71,1 
63,0 64,7 61,2 66,8 61,8 
64,2 63,3 62,2 61,2 59,4 
63,0 66,7 60,3 74,0 62,8 
68,7 63,.8 59,2 60,3 56,6 
59,3 69,5 61,7 58,9 63,1 


a, Calcule a média e o desvio padrão dos dados da amostra. 

b. Usando a média e o desvio padrão calculados no item (a) como estimativas da média e do desvio 
padrão dos salários da população de gerentes de benefícios, use o teorema de Chebyshev para 
determinar a porcentagem de gerentes de benefícios que têm salários anuais entre US$ 55 mil e 
US$ 71mil. 


6 NT: Exame promovido pelas universidades norte-americanas como parte do processo de seleção de estudantes para admissão ao 
curso superior; ele é realizado sete vezes por ano, envolvendo matemática e inglês. Há sete seções: três de matemática, três orais, e 
uma prática (experimental) que não recebe notas, mas é usada somente para pesquisa. 
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c. Desenvolva um histograma dos dados da amostra. Um software de computador fornece 0,97 como 
medida de assimetria. Parece razoável supor que a distribuição de salários anuais possa ser aproxi- 
mada por uma distribuição em forma de sino? 

d. Suponha que a distribuição de salários anuais tenha a forma de sino. Usando a média e o desvio 
padrão computados no item (a) como estimativa da média e do desvio padrão dos salários da popu- 
lação de gerentes de benefícios, use a regra empírica para determinar a porcentagem de gerentes 
de benefícios que têm salários anuais entre US$ 55 mil e US$ 71 mil Compare sua resposta com o 
valor calculado no item (b). 

e. Os dados amostrais contêm algum dado fora da curva? 


34. Uma amostra de 10 pontuações de jogos de basquete universitário da NCAA" forneceu os seguintes 

dados (USA Today, 26 de janeiro de 2004). E 

Time Vencedor Pontos Time Perdedor Pontos Margem de Vitórias 

Arizona 90 Oregon 66 24 

Duke 85 Georgetown 66 19 

Florida State 75 Wake Forest 70 5 

Kansas 78 Colorado 57 2l 

Kentucky 7i Notre Dame 63 8 

Louisville 65 Tennessee 62 у 3 

Oklahoma State 72 Texas 66 6 

Purdue 76 Michigan State 70 6 

Stanford 77 Southem Cal 67 10 

Wisconsin 76 Illinois 56 20 

a. Calcule a média e o desvio padrão dos pontos marcados pelo time vencedor. 

b. Suponha que os pontos marcados pelo time vencedor em todos os jogos da NCAA sigam uma dis- 
tribuição em forma de sino. Usando a média e o desvio padrão encontrados no item (a), estime a 
porcentagem de todos os jogos da NCAA em que o time vencedor obtém 84 ou mais pontos. 
Estabeleça a porcentagem de jogos da NCAA em que o time vencedor marca mais de 90 pontos. 

c. Calcule a média e o desvio padrão da margem de vitórias. Os dados contêm pontos fora da curva? 
Explique. 

35. A Consumer Review publica análises do desempenho e avaliações da qualidade de uma série de pro- 


dutos na internet. Os dados a seguir são uma amostra de 20 sistemas de alto-falantes e suas respecti- 
vas avaliações (http://www. audioreview.com). As avaliações são apresentadas em uma escala de 1 а 
5, sendo 5 a melhor. 


Alto-falante Avaliação Alto-falante Avaliação 
Infinity Kappa 6.1 4,00 ACI Sapphire III 4,67 
Allison One 4,12 Bose 501 Series 2,14 
Cambridge Ensemble II 3,82 DCM КХ-212 4,09 
Dynaudio Contour 1.3 4,00 Eosone RSF 1000 4,7 
Hsu Rsch. HRSWI2V 4,56 Joseph Audio RM7si 4,88 
Legacy Audio Focus 432 Martin Logan Aerius 426 
Mission 73li 4,33 Omni Audio SA 12.3 2,32 
PSB 400i 4,50 Polk Audio RTI2 4,50 
Snell Acoustics D IV 4,64 Sunfire True Subwoofer 4,17 
Thiel CSI.5 4,20 Yamaha NS-A636 2,17 


а, Calcule a média e a mediana. 

b. Calcule o primeiro e o terceiro quartis. 

c. Calcule o desvio padráo. 

d. A assimetria desses dados é —1,67. Comente a forma da distribuição. 
e. Quais são as contagens-z associadas à Allison One e à Omni Audio? 
f. Os dados contém algum ponto fora da curva? Explique. 


7 NT: National Collegiate Athletic Association, 
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Os desenhos 
esquemáticos (box 
plots) constituem 
outra maneira de 
se identificar 
pontos fora da 
curva. Mas eles 
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mesmos valores, 
por exemplo, 
aqueles que tém 
uma contagem-z 
menor que —3 ou 
maior que +3. 
Tanto o primeiro 
como o segundo, 
ou ambos os 
procedimentos, 
podem ser usados. 
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3.4 ANÁLISE EXPLORATÓRIA DE DADOS 


No Capítulo 2, introduzimos a apresentação de ramo-e-folha como uma técnica de análise exploratória dos 
dados. Lembre-se de que a análise exploratória dos dados nos permite usar cálculos aritméticos simples e 
gráficos fáceis de desenhar para sintetizar os dados. Nesta seção, prosseguiremos a análise exploratória de 
dados considerando a regra de cinco itens e desenhos esquemáticos (box plots). 


Regra de Cinco Itens 


Em uma regra de cinco itens, os cinco números seguintes são usados para sintetizar os dados: 


1. Menor valor 
2. Primeiro quartil (Qj) 
3. Mediana (Q5) 
4. Terceiro quartil (Q4) 
5. Maior valor 


A maneira mais fácil de desenvolver uma regra de cinco itens é colocar primeiramente os dados em 
ordem crescente. Depois é fácil identificar o menor valor, os três quartis e o maior valor. Os salários men- 


nistração são repetidos aqui em ordem crescente: 


2.710 2.755 2.850 | 2.880 2.880 2.890 | 2.920 2.940 2.950 | 3.050 3.130 3.325 
О, = 2.865 О» = 2.905 Оз = 3.000 


Mediana 


A mediana de 2.905 e os quartis О, = 2.865 e Q, = 3.000 foram calculados na Seção 3.1. Uma revisão 
dos dados nos mostra que o menor valor é 2.710 e o maior valor é 3.325. Desse modo, a regra de cinco 
itens correspondente aos dados salariais é 2.710, 2.865, 2.905, 3.000 e 3.325. Aproximadamente um quar- 
to, ou 25%, das observações se encontram entre números adjacentes em uma regra de cinco itens. 


Desenhos Esquemáticos (Box Plots) 


Um desenho esquemático é um sumário gráfico de dados que se baseia em uma regra de cinco itens. A 
chave para о desenvolvimento de um desenho esquemático é o cálculo da mediana e dos quartis, О, e О. 
А amplitude interquartil, AIQ = Q; — Q,, também é usada. A Figura 3.5 representa o desenho esquemáti- 
co dos dados de salários mensais iniciais. Os passos para construirmos o desenho esquemático são os 
seguintes: 


1. Desenhamos um retângulo em que suas extremidades se localizam no primeiro e terceiro quartis. 
Em relação aos dados salariais, Q} = 2.865 e Q4 = 3.000. Esse retângulo contém os 50% interme- 
diários dos dados. 


2. Desenhamos uma linha vertical no retângulo, na posição da mediana (2.905 para os dados salariais). 


3. Ao usar a amplitude interquartil, AIQ = Оз — 01, localizamos os limites. Os limites do desenho 
esquemático estão 1,5(AIQ) abaixo de Q; e 1,5(AIQ) acima de О. Em relação aos dados salariais, 
AIQ = Q4 — О, = 3.000 — 2.865 = 135. Desse modo, os limites são 2.865 — 1,5(135) = 2.662,55 e 
3.000 + 1,5(135) = 3.202,5. Os dados fora desses limites são considerados dados fora da curva. 

4. As linhas tracejadas da Figura 3.5 são chamadas costeletas. As costeletas são desenhadas das bor- 
das do retângulo até os valores mínimo e máximo localizados dentro dos limites calculados na etapa 
3. Assim, as costeletas terminam nos valores salariais de 2.710 e 3.130. 


5. Finalmente, a posição de cada ponto fora da curva é indicada pelo símbolo *. Na Figura 3.5, vemos 
um ponto fora da curva: 3.325. 
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Figura 3.5 Desenho esquemático (box plot) dos dados de salários iniciais com linhas 
indicando os limites mínimo e máximo 


Limite Q Mediana Q Limite 
` 1 3 ` 
Inferior Superior Ponto fora 
da curva 
ИНИ V4 
AIQ: 
LS(AIQ) | 1,5{(А1©О) 
2.400 2.600 2.800 3.000 3.200 3.400 


Na Figura 3.5 incluímos linhas que indicam a posição dos limites superior e inferior. Essas linhas 
foram traçadas para indicar como os limites são calculados e onde eles se localizam em relação aos dados 
salariais. Não obstante os limites sempre serem calculados, geralmente eles não são traçados nos desenhos 
esquemáticos. A Figura 3.6 mostra a aparência habitual de um desenho esquemático (box plot) correspon- 
dente aos dados salariais. 


Figura 3.6 Desenho esquemático (box plot) dos dados de salários iniciais 


——_ ір Ыс — — — 
2.400 2.600 2.800 3.000 3.200 3.400 


NOTAS E COMENTÁRIOS 


1. Uma vantagem da análise exploratória de dados é que elas são fáceis de usar; poucos cálculos numé- 
ricos são necessários. Simplesmente classificamos os valores de dados em ordem crescente e identifi- 
camos a regra de cinco itens. O desenho esquemático (box plot) pode ser construído. Não é necessário 
calcular a média e o desvio padrão dos dados. 

2. No Apêndice 3.1 mostramos como construir um desenho esquemático dos dados de salários iniciais 
usando o Minitab. O desenho esquemático obtido se assemelha exatamente ao da Figura 3.6, mas com 
um giro de 90º no sentido anti-horário. 


Exercícios 


Métodos 


36. Considere uma amostra com os valores de dados 27, 25, 20, 15, 30, 34, 28 e 25. Apresente a regra de 
cinco itens dos dados. 


37. Apresente o desenho esquemático dos dados do Exercício 36. 

38. Apresente a regra de cinco itens e o desenho esquemático dos seguintes dados: 5, 15, 18, 10, 8, 12, 
16, 10, 6. 

39. Um conjunto de dados tem o primeiro quartil igual a 42 e o terceiro quartil igual a 50. Calcule os limi- 
tes mínimo e máximo do desenho esquemático correspondente. Um valor de dados igual a 65 deve 
ser considerado um ponto fora da curva? ` 
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Aplicações | 

40. A Ebby Halliday Realtors faz anüncios publicitários de propriedades e imóveis de primeira classe 
localizados em todo o território dos Estados Unidos. Os preços relacionados para 12 propriedades e 
imóveis de primeira classe são mostrados a seguir (The Wall Street Journal, 16 de janeiro de 2004). 
Os preços estão expressos em milhares de dólares: 


1.500 700 2.995 
895 619 880 
> 719 725 3.100 
ARQUIVO 619 739 1.699 
DA INTERNET 625 799 1.120 
4.450 2.495 1.250 
Pr 

TE 2.200 1,395 912 

1.280 


a, Apresente uma regra de cinco itens. 

b. Calcule os limites inferior e superior. 

c. A propriedade que tem o preço mais elevado, US$ 4.450 mil, está relacionada como um imóvel que 
tem vista panorámica do White Rock Lake, em Dallas. Essa propriedade deve ser considerada um 
ponto fora da curva? Explique. 

d. A segunda propriedade com preco mais elevado, relacionado como US$ 3.100.000 deve ser con- 
siderada um ponto fora da curva? Explique. 

e. Apresente um desenho esquemático (box plot). 


41. As vendas anuais, em milhões de dólares, de 21 empresas produtoras de produtos farmacêuticos são 
apresentadas a seguir: 


| 8408 1374 1872 8879 2459 11.413 

5 608 14138 6452 1850 2818 1356 

AUTOTESTE 10498 7478 4019 4341 739 2.127 
3.653 5794 8.305 


а, Apresente uma терга de cinco itens. 

b. Calcule os limites inferior e superior. 

c. Os dados contém algum ponto fora da curva? 

d. As vendas da Johnson & Johnson sáo as maiores da lista, com US$ 14.138 milhóes. Suponha ter 
havido um erro de lançamento (uma transposição) e que as vendas foram de US$ 41.138 milhões. 
O método de detecção de pontos fora da curva do item (c) identifica o problema e possibilita a cor- 
reção do erro de lançamento? ` 

e. Apresente um desenho esquemático (box plot). 


42. As folhas de pagamento dos times da Major League Baseball continuam a crescer. As folhas de paga- 
mento, em milhões, são apresentadas a seguir (The Miami Herald, 22 de maio de 2002): 


Time Folha de Pagamento Time Folha de Pagamento 
Sg Anaheim $6 Milwaukee $ 50 
я Arizona 103 Minnesota 40 
ARQUIVO Atlanta 93 Montreal 39 
DA INTERNET Baltimore 60 NY Mets 95 
Payroll Boston 108 NY Yankees 126 
Chi Cubs 76 Oakland 40 
Chi White Sox 57 Philadelphia 58 
Cincinnati 45 Pittsburgh 42 
Cleveland 79 San Diego 4l 
Colorado 57 San Francisco 78 
Detroit 55 Seattle 90 
Florida 42 St. Louis 74 
Houston 63 Tampa Bay 34 
Kansas City 47 Texas 105 
Los Angeles 95 Toronto 77 
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а. Qual é a mediana da folha de pagamento dos times? 

b. Apresente uma regra de cinco itens. 

c. А folha de pagamento de US$ 126 dos New York Yankees é um ponto fora da curva? Explique. 
d. Apresente um desenho esquemático (box plot). 


43. O presidente do conselho administrativo da Bolsa de Valores de Nova York (New York Stock Exchange 
— Nyse), Richard Grasso, e o conselho de diretores sofreram severas críticas em decorrência do con- 
junto das remunerações pagas a Grasso. No que se refere a salário, mais bonificações, os US$ 8,5 
milhões pagos a Grasso superavam demasiadamente o que ganhavam os altos executivos de todas as 
principais instituições de serviços financeiros. Os dados a seguir mostram o salário anual total, mais 
bonificações, pago à alta gerência de 14 instituições de serviços financeiros (The Wall Street Journal, 
17 de setembro de 2003). Os dados estão expressos em milhões de dólares: 
Empresa Salário/Bonificação Empresa Salário/Bonificação 
. Aetna $3,5 Fannie Mae $43 
AIG 60 Federal Home Loan 08 
Allstate 41 Fleet Boston 1,0 
American Express 3,8 Freddie Mac 1,2 
Chubb 21 Mellon Financial “20 
Cigna 1,0 Merrill Lynch LE 
Citigroup 1,0 Wells Fargo 8,0 
a. Qual é a mediana dos salários anuais, mais bonificações, paga à alta gerência das 14 instituições 
de serviços financeiros? 
b. Apresente uma regra de cinco itens. 
c. O salário anual, mais bonificações, pago a Grasso deve ser considerado um ponto fora da curva 
para esse grupo de altos executivos? Explique. 
d. Apresente um desenho esquemático. LE 
44. Uma relação de 46 fundos mútuos e suas respectivas porcentagens de rentabilidade total em 12 meses ( 
são apresentadas na Tabela 3.6 (Smart Money, fevereiro de 2004) бом 
d ^ 1 DA INTERNET 
a. Qual é a média e a mediana das porcentagens de rentabilidade desses fundos mútuos? Mutual 


b. Quais sáo o primeiro e o terceiro quartis? 
c. Apresente uma regra de cinco itens. 
d. Os dados contêm algum ponto fora da curva? Apresente um desenho esquemático (box plor). 


Tabela 3.6 Rentabilidade de fundos mútuos em 12 meses 


Rentabilidade Rentabilidade 
Fundo Mútuo (96) Fundo Mútuo (%) 
Alger Capital Appreciation 23,5 Nations Small Company 21,4 
Alger LargeCap Growth 22,8 Nations SmallCap Index 24,5 
Alger MidCap Growth 38,3 Nations Strategic Growth 10,4 
Alger SmaliCap 41,3 Nations Value Inv 10,8 
AlianceBernstein Technology 40,6 One Group Diversified Equity 10,0 
Federated American Leaders 5,6 One Group Diversified Int'l 10,9 
Federated Capital Appreciation 2,4 One Group Diversified Mid Cap 15.1 
Federated Equity-Income 1,5 One Group Equity Income 6,6 
Federated Kaufmann 333 One Group Int'l Equity Index 13,2 
Federated Max-Cap Index 6,0 One Group Large Cap Growth 13,6 
Federated Stock 6,9 One Group Large Cap Value 12,8 
anus Adviser Int! Growth 03 One Group Mid Cap Growth 18,7 
anus Adviser Worldwide 34 One Group Mid Cap Value 11,4 
anus Enterprise 242 One Group Small Cap Growth 23,6 
anus High-Yield 21 PBHG Growth 27,3 
anus Mercury 20,6 Putnam Europe Equity 20,4 
anus Overseas 1,9 Putnam Int'| Capital Opportunity 36,6 
anus Worldwide 4,1 Putnam International Equity 21,5 
Nations Convertible Securities 3,6 Putnam Int'! New Opportunity 263 
Nations Int'l Equity 0,7 Strong Advisor Mid Cap Growth 23,7 
Nations LargeCap Enhd. Core 3,2 Strong Growth 20 157 
Nations LargeCap Index 3,5 Strong Growth Inv 232 
Nation MidCap Index 95 Strong Large Cap Growth 14,5 
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3.5 MEDIDAS DE ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS 


Até aqui, examinamos os métodos numéricos utilizados para sintetizar dados correspondentes a uma 
variável a cada vez. Freqüentemente um gerente ou tomador de decisões está interessado na relação entre 
duas variáveis. Nesta seção apresentamos a covariância e a correlação como medidas descritivas da rela- 
ção entre duas variáveis. 

Iniciamos reconsiderando a aplicação que diz respeito a uma loja de equipamentos de som localizada 
em São Francisco, conforme apresentamos na Seção 2.4. O gerente da loja quer determinar a relação entre 
o número de comerciais de televisão divulgados nos fins de semana e as vendas na loja durante a semana 
seguinte. Dados de amostra com as vendas expressas em centenas de dólares são apresentados na Tabela 
3.7. Ela apresenta 10 observações (n = 10), sendo uma para cada semana. O diagrama de dispersão da 
Figura 3.7 exibe uma relação positiva, com vendas mais elevadas (y) associadas a um número maior de 
comerciais (x). Realmente, o diagrama de dispersão sugere que uma linha reta poderia ser usada como uma 
aproximação da relação. Na discussão a seguir, introduzimos a covariância como uma medida descritiva 
da associação linear entre duas variáveis. 


Covariância 


Para uma amostra de tamanho n com as observações (xj, уу), (x5, у) etc., a covariância da amostra é defi- 
nida da seguinte maneira: 


COVARIÂNCIA DA AMOSTRA 
Z 5(х, — Х)(у, — 9) 


ос] (3.10) 


ху 


Essa fórmula emparelha cada х; com um y;. Somamos entáo os produtos obtidos ао multiplicarmos о 
desvio que cada x; tem de sua média da amostra X pelo desvio que о y; correspondente tem de sua média 
da amostra; essa soma é então dividida por n – 1. 


Tabela 3.7 Dados de amostra referentes à loja de equipamentos de som 


Nümero de Comerciais Volume de Vendas ($100s) 

Semana x y 
i 2 50 
2 5 57 
3 | 41 
4 3 54 
5 4 54 
6 I 38 
7 5 63 
8 3 48 
9 4 59 
10 2. 46 


Para medir a intensidade da relação linear entre o número de comerciais x e o volume de vendas у по 
problema da loja de equipamentos de som, usamos a Equação (3.10) para calcular a covariância da amos- 
tra. Os cálculos da Tabela 3.8 apresentam o cálculo de X(x; — x) (у; — Ӯ). Note que X = 30/10 = 3e 
y = 510/10 = 51. Usando a Equação (3.10), obtemos а covariáncia da amostra: 


5(х, — Х(у; — 9) 99 
n-—1 9 


11 


У 
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Figura 3.7 Diagrama de dispersáo da loja de equipamentos de som 


Vendas ($1005) 


0 | 2 3 4 5 
Nümero de Comerciais 


Tabela 3.8 Cálculos da covariáncia da amostra 


Xi Yi x—X У-У (х; ху; Ӯ) 
2 50 — -l | 
5 57 2 6 12 
| 41 -2 —10 20 
3 54 0 3 А 0 
4 54 3 3 
I 38 -2 -13 26 
5 63 2 12 24 
3 48 0 -3 0 
4 59 8 8 
2 46 — —5 Ss. 
Totais 30 510 0 0 99 . 
_ X«q-X«w-y 9 =] 
у= n-1 202151! 


A fórmula para computar a covariância de uma população de tamanho N é similar à Equação 3.10, mas 
usamos uma notação diferente para indicar que estamos trabalhando com a população inteira. 


COVARIÂNCIA POPULACIONAL 
_ 5% — А)О – ш) 


9, N GID 


Na Equação 3.11, utilizamos a notação т, para a média da população da variável x, e и, para a média 
da população da variável y. À covariância populacional 9yy é definida para uma população de tamanho N. 


Interpretação da Covariância 


Para auxiliar na interpretação da covariância da amostra, considere a Figura 3.8. Ela é idêntica ao diagra- 
ma de dispersão da Figura 3.7, com uma linha tracejada vertical em X = 3 e uma linha tracejada horizon- 
tal em ӯ = 51. As linhas dividem o gráfico em quatro quadrantes. Os pontos localizados no quadrante I cor- 
respondem a x; maior que X e y; maior que y, os pontos localizados no quadrante II referem-se a x, menor 
que X e yj maior que y e assim por diante. Desse modo, o valor (x; — X) (y; — y) deve ser positivo para pon- 
tos localizados no quadrante I, negativo para pontos localizados no quadrante II, positivo para pontos loca- 
lizados no quadrante II e negativo para pontos localizados no quadrante IV. 
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Se o valor de s,, for positivo, os pontos que têm a maior influência sobre s,, devem estar nos quadran- 
tes I e Ш. Portanto, um valor positivo para s,, indica uma associação linear positiva entre x e y; ou seja, à 
medida que o valor de x se expande, o valor de y aumenta. Se, entretanto, o valor de s,, for negativo, os pon- 
tos que têm a maior influência sobre s,, estão nos quadrantes П e IV. Portanto, um valor negativo para So 
indica uma associação linear negativa entre x e y; ou seja, à medida que o valor de x aumenta, o valor de y 
diminui. Finalmente, se os pontos estiverem uniformemente distribuídos em todos os quatro quadrantes, o 
valor de s,, se aproximará de zero, indicando que não há nenhuma associação linear entre x e y. A Figura 
3.9 apresenta os valores de s,, que se pode esperar com três diferentes tipos de diagramas de dispersão. 


Figura 3.8 Diagrama de dispersão da loja de equipamentos de som dividido em quadrantes 
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Consultando novamente a Figura 3.8, observamos que o diagrama de dispersão da loja de equipamen- 
tos de som segue o padrão apresentado no painel da parte superior da Figura 3.9. Como se poderia espe- 
rar, o valor da covariância da amostra indica uma relação linear positiva com $7 1. 

Pelo que foi exposto na discussáo anterior, poderia parecer que um valor positivo elevado para a cova- 
riância indicaria uma relação linear positiva forte e que um valor negativo elevado apontaria uma relação 
linear negativa forte. Entretanto, um problema quando se usa a covariáncia como uma medida da intensi- 
dade da relação linear é que o valor da covariância depende das unidades de medida para x e y. Por exem- 
plo, suponha que estejamos interessados na relação entre a altura x e o peso y das pessoas. Evidentemente, 
a intensidade da relação deve ser a mesma se medirmos a altura em centímetros ou em polegadas. Porém, 
quando a altura é medida em polegadas, obtemos valores numéricos muito mais elevados para (x; x) do 
que quando medimos a altura em centímetros. Desse modo, quando a altura é medida em polegadas, pode- 
mos obter um valor mais elevado para o numerador X(x; - X) (y; — y) da Equação 3.10 e, portanto, uma 
covariância maior — quando, de fato, a relação não se altera. Uma medida da relação entre duas variáveis 
que não é afetada pelas unidades de medida para x e y é o coeficiente de correlação. 
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Figura 3.9 Interpretação da covariância da amostra 


y 


Syy Positivo: 
(x ey têm uma relação 
linear positiva) 


Sy Aproximadamente Igual a 0: 
(x ey náo tém uma 
relação linear) 


Sxy Negativo: 
(x e y têm uma relação 
linear negativa) 
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Coeficiente de Correlação 


Para dados amostrais, o coeficiente de correlação momento-produto de Pearson é o seguinte: 


COEFICIENTE DE CORRELAÇÃO MOMENTO-PRODUTO DE PEARSON: DADOS AMOS- 
TRAIS 


= do 
тэ = ve (3.12) 


ет que 
гуу = coeficiente de correlação da amostra 
зуу = covariância da amostra 
5, = desvio padrão da amostra de x 
sy = desvio padrão da amostra de y 


A Equação 3.12 mostra que o coeficiente de correlação momento-produto de Pearson para dados amos- 
trais (comumente chamado coeficiente de correlação da amostra) é calculado dividindo-se a covariância 
da amostra pelo produto do desvio padrão da amostra de x pelo desvio padrão da amostra de y. 

Agora, vamos calcular o coeficiente de correlação da amostra para a loja de equipamentos de som. 
Usando os dados da Tabela 3.8, podemos calcular os desvios padrão da amostra para as duas variáveis. 


[x = xy [20 
= — E -4Í—-14 
5 n-1 9 49 
[XQ - 3 [566 
5, PET 9 7,93 


Assim, desde que s,, = 11, o coeficiente de correlação da amostra é igual a 


ge u 


ху 
Ty = — =-———— = +,93 
© зз, (1,49)(7,93) 
A fórmula para computar o coeficiente de correlação de uma população, denotado pela letra grega Pxy 
(pronuncia-se “rô”), é a seguinte: 


COEFICIENTE DE CORRELAÇÃO MOMENTO-PRODUTO DE PEARSON: 
DADOS POPULACIONAIS 


PES O: (3.13) 


em que 
юу = coeficiente de correlação da população 
0,, = covariância populacional 
o, = desvio padrão da população para x 
су = desvio padrão da população para y 


O coeficiente de correlação da amostra r,, fornece uma estimativa do coeficiente de correlação da 
população py. 


Interpretação do Coeficiente de Correlação 


Primeiramente, vamos considerar um exemplo simples que ilustra o conceito de relação linear positiva per- 
feita. O diagrama de dispersão da Figura 3.10 descreve a relação entre x e y baseando-se nos seguintes 
dados amostrais: 
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X Yi 
5 10 
10 30 
15 50 


Figura 3.10 Diagrama de dispersão descrevendo uma relação linear positiva perfeita 
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A linha reta traçada através de cada um dos três pontos indica uma relação linear perfeita entre x e y. Para 
aplicarmos a Equação 3.12 a fim de calcular a correlação da amostra, devemos primeiramente calcular s,,, 
5, езу. Alguns dos cálculos são mostrados na Tabela 3.9. Usando os resultados dessa tabela, encontramos 


ZG — 90, — у) 200 
AX; i 1 
5, 1-1 2 00 


[XG, — я) 50 5 
5 n-1 2 
[z»-5* _ [800 
5, act 2 20 


_ у _ 100 — 


5,5, 5(20) О coeficiente de 
correlacáo varia de 


: " А —| a +1. Valores 
Portanto, observamos que o valor do coeficiente de correlacáo da amostra é 1. ; 
que se aproximam 


Em geral, pode-se demonstrar que, se todos os pontos de um conjunto de dados se situam em uma linha de | ou +1 
reta positivamente inclinada, o valor do coeficiente de correlação da amostra é +1; ou seja, um coeficien- indicam uma 
te de correlação da amostra igual a +1 corresponde a uma relação linear positiva perfeita entre x e y. Além | relação linear forte. 
disso, se os pontos do conjunto de dados se situam em uma linha reta que tem uma inclinação negativa, o Quanto mais 
valor do coeficiente de correlação da amostra é —1; ou seja, um coeficiente de correlação da amostra igual ação extiver 
a –1 corresponde a uma relação linear negativa perfeita entre x e y. de zero, mais fraca 
Vamos supor agora que certo conjunto de dados indique uma relação linear positiva entre x e y, mas a — será a relação. 
relação não é perfeita. O valor de r, será menor que 1, indicando que os pontos no diagrama de dispersão 
não estão todos em uma linha reta. Uma vez que os pontos se afastam cada vez mais de uma relação linear 
positiva, o valor de r,, torna-se cada vez menor. Um valor de r,, igual a zero indica que não há nenhuma 
relação linear entre x e y, e os valores de r, próximos de zero indicam uma relação linear fraca. 
Em relação aos dados envolvendo a loja de equipamentos de som, lembre-se de que r,, = 40,93. 
Portanto, concluímos que ocorre uma relação linear positiva forte entre o número de comerciais e as ven- 
das. Mais especificamente, um aumento no número de comerciais está associado a um aumento nas vendas. 
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Para encerrar, observamos que a correlação constitui uma medida de associação linear e não necessa- 
riamente de causacáo. Uma correlação elevada entre duas variáveis não significa que alterações havidas 
em uma variável provocarão alterações na outra variável. Por exemplo, podemos descobrir que a avalia- 
ção da qualidade e o preço típico das refeições em restaurantes estão positivamente correlacionados. 
Entretanto, simplesmente aumentar o preço em um restaurante não fará com que a avaliação da qualidade 
se eleve, 


Tabela 3.9 Cálculos realizados para determinação do coeficiente de correlação da amostra 


X y X-X («- x? »-Y (-»? 6s-3- Y) 

5 10 —5 25 —20 400 100 

10 30 0 0 0 0 0 

15 50 5 25 20 400 100 

Totais 30 90 0 50 0 800 200 
х= 10 y-230 
Ехегсісіоѕ 
Métodos 
45. Cinco observações feitas de duas variáveis são apresentadas a seguir: 
х4 6 ! 3 16 


y 150 50 40 60 30 


a. Desenvolva um diagrama de dispersão com x no eixo horizontal. 

b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas 
variáveis? 

c, Calcule e interprete a covariância da amostra. 

d. Calcule e interprete o coeficiente de correlação da amostra. 


46. Cinco observações feitas de duas variáveis são apresentadas a seguir: 


x46 IL 15 20 27 
»lé 9 6 17 12 


а. Desenvolva um diagrama de dispersáo desses dados. 

b. O que o diagrama de dispersão indica a respeito da relação entre x e y? 
c. Calcule e interprete a covariância da amostra. 

d. Calcule e interprete o coeficiente de correlação da amostra. 


Aplicações 

47. A Nielsen Media Research publica duas medidas do público telespectador: uma classificação do pro- 
grama de televisão, com a porcentagem dos lares que estão com os televisores ligados, e o nível de 
audiência do programa de televisão, contendo a porcentagem dos lares que assistem a determinado 
programa entre aqueles que estão com o televisor ligado. Os dados a seguir mostram classificação e 
os níveis de audiência referentes à transmissão dos jogos da Major League Baseball World Series ao 
longo de um período de nove anos (Associated Press, 27 de outubro de 2003): 


Classificação |19 17 17 14 16 12 15 12 13 
Nível de Audiéncia [32 28 29 24 26 20 24 20 22 


a. Desenvolva um diagrama de dispersão com a classificação no eixo horizontal. 

b. Qual é a relação entre a classificação e o nível de audiência? Explique. 

c. Calcule e interprete a covariância da amostra. 

d. Calcule o coeficiente de correlação da amostra. O que esse valor nos diz a respeito da relação entre . 
a classificação e o nível de audiência? 


Capítulo 3 Estatística Descritiva: Medidas Numéricas 


48. Um estudo do departamento de transportes sobre a velocidade ao volante e a milhagem de automó- 
veis de tamanho médio resultou nos seguintes dados: 

Velocidade ao Volante 30 50 40 55 30 25 60 25 50 55 
Milhagem 28 25 25 23 30 32 21 35 26 25 
Calcule e interprete o coeficiente de correlação da amostra. 

49. A revista PC World publicou avaliações de 15 computadores notebook (PC World, fevereiro de 2000). 
A pontuação do desempenho é uma medida de como o computador roda uma variedade de aplicati- 
vos comuns de negócios em comparação com uma máquina de referência. Por exemplo, um PC com 
um desempenho igual a 200 é duas vezes mais rápido que a máquina de referência. Foi utilizada uma 
escala de 100 pontos para fornecer uma avaliação global de cada notebook testado nesse estudo. Uma 
pontuação na casa dos 90 é excepcional, ao passo que uma pontuação na casa dos 70 é considerada 
boa. A Tabela 3.10 apresenta as pontuações de desempenho e as classificações gerais dos 15 note- 
books. 

Tabela 3.10 Pontuações de desempenho e classificações globais de |5 computadores notebook 
Pontuação Classificação 
Notebook de Desempenho Global 
AMS Tech Roadster |5CTA380 15 67 
Compaq Armada М700 91 78 
Compaq Prosignia Notebook 150 53 79 
Dell Inspiron 3700 C466GT 94 80 
Dell Inspiron 7500 R500VT 236 84 
Dell Latitude Cpi A366XT 84 76 
Enpower ENP-313 Pro 84 77 
Gateway Solo 930015 216 92 
HP Pavilion Notebook PC 85 83 
IBM ThinkPad І Series 1480 83 78 
Micro Express NP7400 89 77 
Micron TransPort NX PII-400 202 78 
NEC Versa SX 92 78 
Sceptre Soundx 5200 4l 73 
Sony VAIO PCG-F340 87 77 
a. Calcule o coeficiente de correlação da amostra. 
b. O que o coeficiente de correlação da amostra nos informa a respeito da relação entre a pontuação 
de desempenho e a classificação global? 

50. A Média Industrial Dow Jones (Dow Jones Industrial Average — DJIA) e o Standard & Poor's (S&P) 
500 Index são ambos utilizados como medidas do movimento global no mercado financeiro. A DJIA 
baseia-se no movimento de preços de 30 grandes empresas; o S&P 500 é um índice composto de 500 
títulos financeiros. Alguns dizem que o S&P 500 é uma medida melhor do desempenho do mercado 
financeiro porque ele tem uma base mais ampla. Os preços de fechamento da DJIA e do S&P 500 
correspondentes a dez semanas, com início em 11 de fevereiro de 2000, sáo mostrados a seguir 
(Barron's, 17 de abril de 2000). 

Data Dow Jones S&P 500 Data Dow Jones S&P 500 
ГЕ de fevereiro 10.425 1.387 17 de março 10.595 1.464 
18 de fevereiro 10.220 1.346 24 de marco PREI 1.527 
25 de fevereiro 9.862 1.333 31 de março 10.922 1.499 , 
3 de margo 10.367 1.409 7 de abril [EMI 1.516 
10 de marco 9.929 1.395 14 de abril 10.306 1.357 
a. Calcule o coeficiente de correlação da amostra desses dados. 
b. Discuta a associação entre a DJIA e o S&P 500 Index. 
51, As temperaturas máxima e mínima do dia (expressas em graus centígrados) de 12 cidades norte-ame- 


ricanas são apresentadas a seguir (Weather Channel, 25 de janeiro de 2004): 
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Cidade Máxima Mínima Cidade Máxima Mínima 
Albany 2 -8 Los Angeles 62 47 
Boise 32 26 New Orleans 71 55 
Cleveland 21 19 Portland 43 36 
Denver 37 io Providence 18 8 
Des Moines 24 l6 Raleigh 28 24 
Detroit 20 17 Tulsa 55 _38 
а. Qual é a média de temperatura máxima diária da amostra? 


b. Qual é a média de temperatura mínima diária da amostra? 
C. Qual é a correlação entre as temperaturas máxima e mínima? 


3.6 MÉDIA PONDERADA E O TRABALHO 
COM DADOS AGRUPADOS 


Na Seção 3.1, apresentamos a média como uma das medidas mais importantes da posição central. A fór- 
mula para encontrar a média de uma amostra com n observações é reformulada da seguinte maneira: 


AX Акон 


= a s (3.14) 


Nessa fórmula, cada x; tem igual importáncia ou peso. Nào obstante essa prática ser a mais comum, 
em alguns casos a média é calculada dando-se a cada observação um peso que reflita a sua importância. 
Uma média calculada dessa maneira é chamada média ponderada. 


Média Ponderada 


A média ponderada é calculada da seguinte maneira: 


MÉDIA PONDERADA 
Ewx; 
Zw, 


х= (3.15) 
ет дие 

x; = о valor da observação i 

w;= о peso da observação i 


Quando os dados são de uma amostra, a Equação 3.15 fornece a média ponderada da amostra. Quando 
os dados são de uma população, т substitui X e a equação fornece a média ponderada da população. 

Como um exemplo da necessidade de se ter uma média ponderada, considere a seguinte amostra de 
cinco compras de determinada matéria-prima ao longo dos últimos três meses: 


Compra Custo por Quilo ($) Quantidade em Quilos 
| 3,00 1.200 
2 3,40 500 
3 2,80 2.750 
4 2,90 1.000 
5 3,25 800 


Observe que o custo por quilo varia de US$ 2,80 a US$ 3,40 e que a quantidade comprada varia de 
500 a 2.750 quilos. Suponha que um gerente tenha solicitado informações sobre o custo médio por quilo 
da matéria-prima. Uma vez que as quantidades encomendadas variam, precisamos usar a fórmula para a 
média ponderada. Os cinco valores de dados de custo por quilo são x, = 3,00, x, = 3,40, x, = 2,80, 
X4 = 2,90 ех; = 3,25. A média ponderada do custo por quilo é encontrada ponderando-se cada custo por 
sua quantidade correspondente. 
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Para esse exemplo, os pesos são w = 1.200, w, = 500, w, = 2.750, w4 = 1.000 e w; = 800. Usarido-se 
a Equação 3.15, a média ponderada é calculada da seguinte maneira: 


1.200(3,00) + 500(3,40) + 2.750(2,80) + 1.000(2,90) + 800(3,25) 
1.200 + 500 + 2.750 + 1.000 + 800 


Dessa forma, o cálculo da média ponderada mostra que o custo por quilo de matéria-prima é US$ 2,96. 
Note que o uso da Equação 3.14, em vez da fórmula da média ponderada, nos forneceria resultados enga- 
nosos. Nesse caso, a média dos cinco valores de custo por quilo é (3,00 + 3,40 + 2,80 + 2,90 + 3,25)/5 = 
15,35/5 = US$ 3,07, a qual superestima o custo médio real por quilo comprado. 

A escolha dos pesos para o cálculo de uma média ponderada em particular depende da aplicação. Um 
exemplo muito conhecido dos estudantes universitários norte-americanos é o cálculo da média escolar, a 
grade point average (GPA)8 Nesse cálculo, os valores de dados geralmente usados são 4 para o grau A, 3 
para o grau B, 2 para o grau С, 1 para o grau D e О para o grau F. Os pesos são o número horas-crédito con- 
quistadas para cada grau. O Exercício 54 no fim desta seção apresenta um exemplo desse cálculo da média 
ponderada. Em outros cálculos da média ponderada, quantidades como libras-peso, dólares ou volume fre- 
qüentemente sáo utilizadas como pesos. De qualquer forma, quando as observagóes variam em termos de 
importância o analista deve escolher o peso que reflita melhor a importância de cada observação na deter- 
minação da média. : 


Dados Agrupados 


Na maioria dos casos, as medidas de posição e variabilidade são calculadas usando-se os valores indivi- 
duais dos dados. Às vezes, no entanto, os dados estão disponíveis somente na forma agrupada ou na forma 
de distribuição de freqüéncia. Na discussão a seguir, mostramos como a fórmula da média ponderada pode 
ser usada para se obter aproximações da média, da variância e do desvio padrão de dados agrupados. 

Na Seção 2.2, apresentamos uma distribuição de frequência do tempo em dias necessário para a con- 
clusão das auditorias de fim de ano realizadas pela empresa de contabilidade Sanderson and Clifford. A 
distribuição de fregiiência dos tempos para a conclusão das auditorias, baseada em uma amostra de 20 
clientes, é indicada novamente na Tabela 3.11. Com base nessa distribuição de fregiiência, qual é o tempo 
médio para conclusão das auditorias relativo à amostra? 

Para calcular a média usando somente os dados agrupados, tratamos o ponto médio de cada classe como 
representativo dos itens da classe. Digamos que M; denote o ponto médio da classe i e que f; designe a fre- 
qüéncia da classe i. A fórmula da média ponderada (Equação 3.15) é então usada com os valores de dados 
denotados por M; e os pesos pelas freqüéncias f;. Nesse caso, o denominador da Equação 3.15 é a soma das 
frequências, que é o tamanho л da amostra. 


Tabela 3.11 Distribuição de freqüéncia dos tempos necessários para conclusão das auditorias 


Tempo Necessário para a 
Conclusão das Auditorias (dias) Freqüéncia 
10-14 

15-19 

20-24 

25-29 

30-34 


Total 


ы 
© |—ю wc к 


Ou seja, Уу; = n. Desse modo, a equação da média da amostra para dados agrupados é a seguinte: 


8 NT: Média escolar nos Estados Unidos. Medida numérica do rendimento acadêmico baseada no cálculo do número de créditos e 
notas obtidas em todas as matérias até o presente. Baseia-se em uma escala de O a 4. 
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MÉDIA DA AMOSTRA PARA DADOS AGRUPADOS 


= = (3.16) 


em que 
М; = o ponto médio da classe i 
f; = а freqüéncia da classe i 
п = о tamanho da amostra 


Com os pontos médios da classe, Mj, em uma posição intermediária entre os limites da classe, a pri- 
meira classe de 10—14 da Tabela 3.11 tem o ponto médio em (10 + 14)/2 = 12. Os cinco pontos médios da 
classe e o cálculo da média ponderada dos tempos para conclusáo das auditorias estáo resumidos na Tabela 
3.12. Como se pode ver, a média de tempo para conclusáo das auditorias da amostra sáo 19 dias. 

Para calcular a variáncia de dados agrupados usamos uma versáo ligeiramente modificada da fórmula 
para a variância apresentada na Equação 3.5. Nessa equação, os desvios dos dados em torno da média da 
amostra ao quadrado, X , foram apresentados como (x; —x )2. Entretanto, com dados agrupados, os valores 
não são conhecidos. Nesse caso, tratamos o ponto médio da classe, M;, como representativo dos valores x, 
da classe correspondente. Desse modo, os desvios quadráticos em torno da média da amostra, (x, — x ^, são 
substituídos por (M; ~ x )2, Então, da mesma forma que agimos com os cálculos da média da amostra рага 
dados agrupados, ponderamos cada valor pela freqüéncia de classe, fj. A soma dos desvios quadráticos em 
tomo da média de todos os dados é aproximada por УУМ; — x )2. O termo n — 1 em vez de n aparece no 
denominador a fim de transformar a variância da amostra na estimativa da variância da população. Assim, 
a fórmula apresentada a seguir é usada para se obter a variância da amostra de dados agrupados, 


VARIÂNCIA DA AMOSTRA PARA DADOS AGRUPADOS 
2- SEM, — xy 


"- (3.17) 


Tabela 3.12 Cálculo da média da amostra para dados agrupados do tempo necessário 
para conclusão das auditorias 


Tempo Necessário para a Ponto Médio da Classe Frequência 

Conclusão das Auditorias (dias) (M) @ fMi 
10-14 12 4 48 

15-19 . 17 8 136 

20-24 22 5 Ho 

25-29 27 2 54 

30-34 32 І 32 

20 380 


. EfM; 380 . 
Média da amostra x — 4 739^ 19 dias 
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Tabela 3.13 Cálculo da variância da amostra para dados agrupados do tempo necessário para a 
conclusão das auditorias (média da amostra x— 19) 


Tempo Necessário 


para a Conclusão Ponto Médio Desvio 
das Auditorias da Classe Freqüéncia Desvio Quadrático ` 

(dias) (M) Ch) (Mi -Я) (Mi- x? fiM,- x 
10-14 12 4 -7 49 196 
15-19 17 8 = 4 32 
20-24 22 5 3 9 45 
25-29 27 2 8 64 128 
30—34 32 І 13 169 169 

20 570 

ХМ; х) 
ЗМ: х) 570 


Variáncia да amostra 52 = = 30 


п- 1 19 


O cálculo da variância da amostra dos tempos para conclusão das auditorias baseado nos dados agru- 
pados da Tabela 3.11 é apresentado na Tabela 3.13. Como se pode notar, a variância da amostra é 30. 

O desvio padrão de dados agrupados é simplesmente a raiz quadrada da variância dos dados agrupados. 
Em relação aos tempos para a conclusão das auditorias, o desvio padrão da amostra é s = V30 = 5,48. 

Antes de encerrarmos esta seção sobre o cálculo de medidas de posição e dispersão de dados agrupa- 
dos, observamos que as Fórmulas 3.16 e 3.17 são para uma amostra. As medidas de sumário da popula- 
ção são computadas similarmente. As fórmulas de dados agrupados da média e da variância de uma popu- 
lação são apresentadas a seguir. 


MÉDIA POPULACIONAL PARA DADOS AGRUPADOS 


= LM, 
= Si (3.18) 
VARIÂNCIA POPULACIONAL PARA DADOS AGRUPADOS 
(M, — uy. 
o = AM 2 (3.19) 


N 


NOTAS E COMENTÁRIOS 


Ao calcularmos a estatística descritiva para dados agrupados, utilizamos os pontos médios da classe 
para aproximar os valores de dados de cada classe. Em conseqüéncia, a estatística descritiva para dados 
agrupados é uma aproximação da estatística descritiva que resultaria se usássemos os dados originais 
diretamente. Portanto, recomendamos calcular a estatística descritiva a partir dos dados originais em 
vez dos dados agrupados, sempre que isso for possível. 


Exercícios 


Métodos 


52. Considere os seguintes dados e os pesos correspondentes: 


xj Peso (wj) 
32 6 
20 3 
2,5 2 
50 8 


i0 


AUTOTESTE 


AUTOTESTE 
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a. Calcule a média ponderada. 
b. Calcule a média da amostra dos quatro valores de dados sem ponderação. Observe a diferença nos 
resultados apresentados pelos dois cálculos. 


53. Considere os dados amostrais da seguinte distribuição de freqüéncia: 


Classe Ponto Médio Freqüéncia 
3-7 5 4 
' 8-12 i0 7 
13-17 15 9 
18-22 20 5 


a. Calcule a média da amostra. 
b. Calcule a variância da amostra e o desvio padrão da amostra. 


Aplicações 

54. A grade point average (GPA) dos estudantes universitários norte-americanos baseia-se no cálculo de 
uma média ponderada. Na maioria das escolas de ensino superior (colleges) são atribuídos os seguin- 
tes valores aos graus: A (4), B (3), C (2), D (1) e F (0). Depois de 60 horas-crédito de trabalho aca- 
dêmico, um estudante de uma universidade pública ganhou 9 horas-crédito para A, 15 horas-crédito 

para B, 33 horas-crédito para C e 3 horas-crédito para D. 

а. Calcule a GPA (grade point average) do estudante. 

b. Os estudantes das universidades públicas precisam manter uma grade point average de 2,5 para 
suas primeiras 60 horas-crédito de trabalho acadêmico a fim de serem admitidos na escola de admi- 
nistracáo. Esse estudante será admitido? 

55. A Bloomberg Personal Finance (julho/agosto de 2001) incluiu as seguintes empresas em sua cartei- 
ra de investimentos recomendada. Para uma carteira de US$ 25 mil, os valores em dólares que reco- 
mendavam alocar a cada ação são mostrados a seguir: 


Portfólio Estimativa da Taxa Retorno em 
Empresa ($) de Crescimento (96) Dividendos (96) 
Citigroup 3.000 15 1,21 
General Electric 5.500 14 1,48 
Kimberly-Clark 4.200 12 1,72 
Oracle 3.000 25 0,00 
Pharmacia 3.000 20 0,96 
SBC Communications 3.800 12 2,48 
WorldCom 2.500 35 0,00 


a. Usando a quantia em dólares da carteira de investimentos como pesos, qual é a média ponderada 
da estimativa da taxa de crescimento da carteira de investimentos? 
b. Qual é a média ponderada do retorno em dividendos da carteira de investimentos? 
56. Um posto de gasolina registrou a seguinte distribuição de freqüéncia para o número de galões de 
gasolina vendidos por carro em urna amostra de 680 carros. 


Gasolina (galóes) Freqüéncia 

0-4 74 

5-9 192 
10-14 280 
15-19 105 
20-24 23 
25-29 6 
Total 680 


Calcule a média, a variáncia e o desvio padráo desses dados agrupados. Se o posto de gasolina espe- 
ra atender a cerca de 120 carros em determinado dia, estime o número total de galões de gasolina que 
serão vendidos. 
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57. Uma pesquisa dos assinantes da revista Fortune fez a seguinte pergunta: “Quantas das quatro últimas 
edições você leu?" Suponha que a seguinte distribuição de freqiiência resuma 500 respostas: 


Número de Edições Lidas Freqüéncia 


4A UwN—O 
A 
о 


Total 500 


а. Qual é o número médio de edições lidas por um assinante da revista Fortune? 
b. Qual é o desvio padrão do número de edições lídas? 


Resumo 


Neste capítulo, apresentamos diversos métodos de estatística descritiva que podem ser usados para sinteti- 
zar a posição, a variabilidade e a forma de uma distribuição de dados. Diferentemente dos procedimentos 
tabulares e gráficos introduzidos no Capítulo 2, as medidas inseridas neste capítulo sintetizam os dados em 
termos de valores numéricos. Quando os valores numéricos obtidos se referem a uma amostra, eles são cha- 
mados estatística da amostra. Quando os valores numéricos dizem respeito a uma população, eles são deno- 
minados parâmetros populacionais. Algumas das notações usadas para a estatística da amostra e para os 
parâmetros populacionais são: 


Estatística da Amostra Parâmetro Populacional 


Média x A 

Variância 52 о? 

Desvio padráo s с 

Covariância Sy Oy 

Correlação r, р, 
ii M —— —  "— 0 P: 


Como medidas da posicáo central, definimos a média, a mediana e a moda. Depois, utilizamos o con- 
ceito de percentil para descrever outras posições no conjunto de dados. Em seguida, apresentamos a ampli- 
tude, a amplitude interquartil, a variância, o desvio padrão e o coeficiente de variação como medidas da 
variabilidade ou dispersão. Nossa principal medida da forma de uma distribuição foi a assimetria. Valores 
negativos indicam uma distribuição de dados inclinada à esquerda. Valores positivos apontam uma distri- 
buição de dados inclinada à direita. Logo após, descrevemos como a média e o desvio padrão poderiam 
ser usados, aplicando-se o teorema de Chebyshev e a regra empírica, para produzir informações mais espe- 
cíficas a respeito da distribuição de dados e para identificar os pontos fora da curva. 

Na Seção 3.4, mostramos como desenvolver uma regra de cinco itens e um desenho esquemático (box 
plot) para fornecer informações simultâneas sobre a posição, variabilidade e forma da distribuição. Na 
Seção 3.5, introduzimos a covariância e o coeficiente de correlação como medidas da associação entre 
duas variáveis. Na seção final, mostramos como calcular uma média ponderada e como calcular uma 
média, a variância e o desvio padrão para dados agrupados. 

A estatística descritiva que discutimos pode ser desenvolvida usando-se softwares estatísticos e plani- 
lhas eletrônicas. No Apêndice 3.1, mostraremos como desenvolver a maioria dos métodos de estatística 
descritiva apresentados neste capítulo, usando o Minitab. No Apêndice 3.2, demonstraremos o uso do 
Excel para o mesmo propósito. 


Glossário 


Estatística da amostra Valor numérico usado como medida resumida de uma amostra (por exemplo, a 
média da amostra, X, a variância da amostra, 52, e o desvio padrão da amostra, s). 

Parâmetro populacional Valor numérico usado como medida resumida de uma população (por exemplo, 
a média populacional m, a variância de população 52 e o desvio padrão s). 

Estimador por pontos A estatística da amostra, por exemplo, X , 52 e s, quando usados para estimar о 
parâmetro populacional correspondente. 

Média Medida de posição central que é calculada somando-se os valores de dados e dividindo-se o resul- 
tado pelo número de observações. 


Em inferência 
estatística, a 
estatística da 
amostra é 
chamada 
estimador por 
pontos do 
parâmetro 
populacional. 
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Mediana Medida de posição central fornecida pelo valor intermediário quando os dados são organizados 
em ordem crescente. 

Moda Medida de posicáo, definida como o valor que ocorre com maior freqüéncia. 

Percentil Valor tal que pelo menos p por cento das observações são menores ou iguais a esse valor e pelo 
menos (100 — p) por cento das observações são maiores ou iguais a esse valor. O 50° percentil é a 
mediana. 

Quartis O 25°, о 50° e o 75º percentis se denominam primeiro quartil, segundo quartil (mediana) e tercei- 
ro quartil, respectivamente. Os quartis podem ser usados para dividir um conjunto de dados em quatro 
partes, sendo cada parte com aproximadamente 25% dos dados. 

Amplitude Medida de variabilidade, definida como o maior valor menos o menor valor. 

Amplitude interquartil (AIQ) Medida de variabilidade, definida como a diferença entre o terceiro e o 
primeiro quartis. 

Variáncia Medida de variabilidade baseada nos desvios dos valores de dados ao redor da média elevados 
ao quadrado. 

Desvio padrão Medida de variabilidade calculada encontrando-se a raiz quadrada positiva da variância. 

Coeficiente de variação Medida de variabilidade relativa calculada dividindo-se o desvio padrão pela 
média e multiplicando-se o resultado por 100. 

Assimetria Medida da forma assumida por uma distribuição de dados. Dados inclinados à esquerda resul- 
tam em uma assimetria negativa; uma distribuição de dados simétrica resulta em uma simetria nula; e 
dados inclinados à direita resultam em uma simetria positiva. 

Contagem-z Um valor encontrado dividindo-se o desvio ao redor da média (x, —X) pelo desvio padrão s. 
Uma contagem-z é chamada valor padronizado e denota o número de desvios padrão que x; está afas- 
tado da média. 

Teorema de Chebyshev Teorema que pode ser usado para se fazer afirmações acerca das propriedades 
dos valores de dados que devem estar contidos em um número específico de desvios padrão da média. 

Regra empírica Regra que pode ser usada para calcular a porcentagem de valores de dados que devem 
estar dentro de um, dois e três desvios padrão da média para dados que exibem uma distribuição em 
forma de sino. 

Ponto fora da curva Valor de dados incomumente pequeno ou incomumente grande. 

Regra de cinco itens Técnica de análise exploratória de dados que usa cinco números para sintetizar os 
dados: o menor valor, o primeiro quartil, a mediana, o terceiro quartil e o maior valor. 

Desenho esquemático (box plot) Sumário gráfico de dados que se baseia em uma regra de cinco itens. 

Covariância Uma medida da associação linear entre duas variáveis. Valores positivos indicam uma rela- 
ção positiva; valores negativos indicam uma relação negativa. 

Coeficiente de correlação Medida de associação linear entre duas variáveis que assumem valores entre 
—1 е +1, Valores próximos de +1 indicam uma forte relação linear positiva; valores próximos de —1 
indicam uma forte relação linear negativa; e valores próximos de zero indicam que não há nenhuma 
relação linear. ' 

Média ponderada Média obtida atribuindo-se a cada observação um peso que reflete sua importância. 

Dados agrupados Dados disponíveis em intervalos de classe quando sintetizados por uma distribuição de 
frequência. Os valores individuais dos dados originais não estão disponíveis. 


- Fórmulas-Chave 

Média da Amostra 

= ES (3.1) 
Média Populacional 

x. 

= W (3.2) 

Amplitude Interquartil 
АЮ = 03-0 (3.3) 


Variáncia da Populacáo 
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ZG — uy 
2s 3.4) · 
с N (3.4) 
Variáncia da Amostra 
EQ – 32 
= = (3.5) 
п 1 
Desvio Padrão 
Desvio padrão da amostra = s = vs? (3.6) 
Desvio padrão da população = o = Vo? (3.7) 
Coeficiente de Variação 
Desvio padráo 
ET x 
Média 100% (3.8) 
Contagem-z 
q=% (3.9) 
Covariância da Amostra 
= ZG; — X0; - X») (3.10) 
"E n-1 
Covariância Populacional 
Z6, — JO ty) 
Ена а s: (3.11) 
Coeficiente de Correlação Momento-Produto de Pearson: Dados Amostrais 
cn 3.12 
ху & 3,5, | (3.12) 
Coeficiente de Correlação Momento-Produto de Pearson: Dados Populacionais 
= Lx 13 
Po 7 oo, (313) 
Média Ponderada 
_ _ Жид, 
х= p» (3.15) 
Média da Amostra para Dados Agrupados 
ZfM, 
х= h a (3.16) 
Variância da Amostra para Dados Agrupados 
Ef (M, — 3? 
qoM ck (3.17) 
n-i 
Média Populacional para Dados Agrupados 
ZFM; 
и = E (3.18) 
Variáncia Populacional para Dados Agrupados 
Ef(M, — uy 
p = AM и) (3.19) 


N 
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Exercícios Suplementares 


58. De acordo com a Annual Consumer Spending Survey de 2003 a média mensal das taxas de cartão de 


59. 


236 1.710 
316 4.135 
991 3.396 


а. Calcule a média е а mediana. 

b. Calcule o primeiro e o terceiro quartis. 

c. Calcule a amplitude e a amplitude interquartil. 

d. Calcule a variáncia e o desvio padráo. 

e. A medida de assimetria desses dados é 2,12. Comente a forma dessa distribuição. Ela é a forma 
que você esperaria? Por quê? Por que não? 

f. Os dados contêm pontos fora da curva? 


crédito Visa do Bank of America foi de US$ 18,38 (U.S. Airways Attaché Magazine, dezembro de 
2003). Uma amostra das taxas mensais de cartões de crédito apresenta os seguintes dados: 


825 7.450 
1.584 387 
1.428 1.688 


А remuneração total anual dos membros da diretoria de uma das 100 maiores empresas de capital 
aberto do país se baseia parcialmente nos cash retainers,? um pagamento anual por participarem do 
quadro de diretores. Além dos cash retainers, os membros da diretoria recebem uma stock retainer, 
uma subvenção em ações, uma stock option!º e honorários por participarem das reuniões da direto- 
ria. À remuneração total pode facilmente ultrapassar os US$ 100 mil, até mesmo quando se tem cash 
retainers baixos, por exemplo, US$ 15 mil. Os dados a seguir apresentam o cash retainer (em 
US$ 1.000) correspondente a uma amostra de 20 das maiores empresas de capital aberto do país (USA 
Today, 17 de abril de 2000). 


Empresa 


American Express 
Bank of America 
Boeing 

Chevron 

Dell Computer 
DuPont 

ExxonMobil 

Ford Motor 
General Motors 
International Paper 
Kroger 

Lucent Technologies 
Motorola 

Procter & Gamble 
Raytheon 

Sears Roebuck 
Texaco 

United Parcel Service 
Wal-Mart Stores 
Xerox 


Cash 
Retainer 


Calcule a seguinte estatística descritiva: 
a. A média, a mediana e a moda. 

b. O primeiro e o terceiro quartis. 

c. À amplitude e a amplitude interquartis. 
d. A variáncia e o desvio padráo. 

e. O coeficiente de variacáo. 


9 NT: Tipo de adiantamento em dinheiro para os participantes da diretoria. 
10 NT: Programa que permite aos empregados comprarem ações da empresa a preço e lucro fixos quando seu desempenho no mer- 
cado eleva o valor de suas ações. 
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60. O retorno em dividendos sáo os dividendos anuais que uma empresa paga, divididos pelo prego de 
mercado atual por ação, expressos na forma de porcentagem. Uma amostra de dez grandes empresas 
produziu os seguintes dados sobre o retorno em dividendos (The Wall Street Journal, 16 de janeiro de 
2004). 


Empresa Retorno em Dividendos (%) Empresa Retorno em Dividendos (%) 
Altria Group 50 General Motors 37 
American Express 0,8 ЈРМограп Сһаѕе 3,5 
Caterpillar 18 McDonald's 1,6 
Eastman Kodak 1:9. United Technology 1,5 
ExxonMobit 25 Wal-Mart Stores 0,7 


a. Qual é a média e a média dos retornos em dividendos? 
b. Qual é a variáncia e o desvio padráo? 
c. Qual empresa proporciona o maior retorno em dividendos? 
d. Qual é a contagem-z do McDonald's? Interprete essa contagem-z. 
е. Qual é a contagem-z da General Motors? Interprete essa contagem-z. 
f. Com base nas contagens-z, os dados contém algum ponto fora da curva? 
61. De acordo com a Forrester Research Inc., aproximadamente 19% dos usuários da internet divertem-se 
com jogos on-line. Os dados a seguir mostram o número de usuários exclusivos (em milhares) de dez 
sites de jogos no més de marco (The Wall Street Journal, 17 de abril de 2000). 


Site Usuários Exclusivos 
aolgames.com 9.416 
extremelotto.com 3.955 
freelotto.com 12.901 
gamesville.com 4.844 
iwin.com 7.410 
prizecentral.com 4.899 
shockwave.com 5.582 
speedydick.com 6.628 
uproar.com 8.821 
webstakes.com 7.499 


Usando esses dados, calcule a média, a mediana, a variáncia e o desvio padráo. 


62. A renda familiar típica de uma amostra de 20 cidades é apresentada a seguir (Places Rated Almanac, 
2000). Os dados estáo expressos em milhares de dólares: 


Cidade Renda 

Akron, OH 74, 

Atlanta, GÀ 824 

Birmingham, AL 712 

Bismark, ND 628 ARQUNO 
Cleveland, OH 792 DA INTERNET 
Columbia, SC 66,8 Income 
Danbury, CT 132,3 

Оегмег, СО 82,6 

Detroit, MI 85,3 

Fort Lauderdale, FL 75,8 

Hartford, СТ CEMI 

Lancaster, PA 75,2 

Madison, WI 78,8 

Naples, FL 100,0 

Nashville, TIN 773 

Philadelphia, PA 87,0 

Savannah, GA 67,8 

Toledo, OH 712 

Trenton, NJ 106,4 

Washington, DC 97,4 


а. Calcule a média e o desvio padráo dos dados da amostra. 
b. Usando a média e o desvio padrão calculados no item (a) como estimativas da média e do desvio 
padrão da renda familiar da população de todas as cidades, use o teorema de Chebyshev para deter- 
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63. 


minar a amplitude dentro da qual 75% das rendas familiares da população de todas as cidades 
devem se situar. 

c. Suponha que a distribuição da renda familiar tenha a forma de sino. Usando a média e o desvio 
padrão calculados no item (a) como estimativas da média e do desvio padrão da renda familiar da 
população de todas as cidades, use a regra empírica para determinar a amplitude dentro da qual 
95% das rendas familiares da população de todas as cidades devem se situar. Compare sua respos- 
ta com o valor encontrado no item (b). 

O transporte público e o automóvel são dois métodos que os trabalhadores podem usar para chegar 

ao trabalho diariamente. As amostras de tempo registradas para cada método são apresentadas a 

seguir. Os tempos estão expressos em minutos: 


Transporte Público: 28 29 32 37 33 25 29 32 41 34 
Automóvel: 29 31 33 32 34 30 31 32 35 33 


a. Calcule a média de tempo da amostra para se chegar ao trabalho utilizando cada um dos meios de 
transporte. 

b. Calcule o desvio padrão da amostra de cada meio de transporte. 

c. Tendo como base os resultados que você obteve nos itens (a) e (b), qual meio de transporte deve- 
ria ser preferível? Explique. ` 

d. Desenvolva um desenho esquemático (box plot) correspondente а cada meio de transporte. Uma 
comparação dos desenhos esquemáticos sustenta suas conclusões para o item (c)? 

A renda familiar típica e o preço típico das casas em uma amostra de 20 cidades são os seguintes 

(Places Rated Almanac, 2000). Os dados estão expressos em milhares de dólares. 


Cidade Renda Preços das Casas 
Bismark, ND 62,8 92,8 
Columbia, SC 66,8 16,7 
Savannah, СА 67,8 108,1 
Birmingham, AL 712 30,9 
Toledo, OH 712 01,1 
Акгоп, ОН 74,1 14,9 
Lancaster, РА 75,2 25,9 
Fort Lauderdale, FL 758 453 
Nashville, TN 77,3 25,9 
Madison, WI 78,8 452 
Cleveland, OH 792 35,8 
Atlanta, GA 824 26,9 
Denver, CO 82,6 619 
Detroit, MI 85,3 45,0 
Philadelphia, PA 87,0 51,5 
Hartford, CT 89,1 62,1 
Washington, DC 974 919 
Naples, FL 100,0 73,6 
Trenton, NJ 106,4 68,1 
Danbury, CT 132,3 234,1 


65, 


a. Qual é o valor da covariáncia da amostra? Ela indica uma relação linear positiva ou negativa? 
b. Qual é o coeficiente de correlação da amostra? 


Os dados a seguir apresentam os gastos com a mídia (milhóes de dólares) e as remessas em milhóes 
de barris referentes a dez grandes marcas de cerveja. 


Gastos com 
a Mídia Remessa em 
Marca (milhóes de dólares) Milhões de Barris 
Budweiser 120,0 36,3 
Bud Light 68,7 20,7 
Miller Lite 100,1 15,9 
Coors Light 76,6 13,2 
Busch 87 8,1 
Natural Light 0,1 7,4 
Miller Genuine Draft 21,5 56 
Miller High Life 1,4 4,4 
Busch Lite 53 43 
Milwaukee's Best 1,7 43 
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a. Qual é a covariância da amostra? Ela indica uma relação ана оц перайуа? 
b. Qual é o coeficiente de correlação da amostra? 


66. A Road & Track publicou a seguinte amostra de avaliações da vida útil e da capacidade de carga de 


pneus de automóvel: 


Avaliação do Pneu Capacidade de Carga 
75 853 
82 1.047 
85 1.135 
87 1.201 
88 1.235 
91 1.356 
92 1.389 
93 1.433 
105 2.039 


a. Desenvolva um diagrama de dispersão dos dados, colocando a classificação dos pneus no eixo x. 
b. Qual é o coeficiente de correlação da amostra, e o que ele Ihe informa sobre a relação entre a ava- 
liação do pneu e a capacidade de carga? 


67. Os dados seguintes mostram a rentabilidade de ações de primeira linha em um trailing!! de 52 semanas 


€ os valores nominais registrados por dez empresas (The Wall Street Journal, 13 de março de 2000). 


Empresa Valor Nominal Rentabilidade 
Am Elec 25,21 2,69 
Columbia En 23,20 3,01 
Con Ed 25,19 3,13 
Duke Energy 20,17 2,25 
Edison Int'l 13,55 1,79 
Enron Cp. 7,44 1,27 
Peco 13,61 3,15 
Pub Sv Ent 21,86 3,29 
Southn Co, 8,77 1,86 
Unicom 2322 2,74 


68. 


69. 


а. Desenvolva um diagrama de dispersáo dos dados, representando o valor nominal no eixo x. 
b. Qual é o coeficiente de correlação da amostra, e o que ela Ihe informa a respeito da relação entre 
a rentabilidade por ação e o valor nominal? 


Uma técnica de previsão denominada média móvel usa a média, ou ponto médio, dos п períodos mais 
recentes para prever o valor seguinte dos dados de uma série temporal. Com uma média móvel de três 
períodos, os três períodos de dados mais recentes são utilizados no cálculo da previsão. Considere um 
produto com a seguinte demanda para os três primeiros meses do ano atual: janeiro (800 unidades), 
fevereiro (750 unidades) e março (900 unidades). 


a. Qual é a previsão em termos de média móvel de três meses para abril? 

b. Uma variação dessa técnica de previsão denomina-se média móvel ponderada. A ponderação pos- 
sibilita que se atribua mais peso ou mais importância aos dados mais recentes da série temporal no 
cálculo da previsão. Por exemplo, uma média móvel ponderada de três meses poderia dar um peso 
3 a dados de um mês atrás, peso 2 a dados de dois meses atrás e peso 1 a dados de três meses atrás. 
Use os dados apresentados para fornecer uma previsão em termos de média móvel ponderada de 
três meses para abril. 


Os prazos em dias para a data de vencimento de uma amostra de cinco fundos de investimento são 
apresentados como segue. As quantias em dólares investidas nos fundos são fornecidas. Use a média 
ponderada para determinar o número médio de dias até a data de vencimento para os dólares investi- 
dos nesses cinco fundos de investimento. 


П NT: Técnica utilizada para mover o preço de fechamento para um ponto próximo dos preços negociados à medida que estes 
seguem para a direção desejada. O objetivo é cortar perdas. 
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Prazo em Dias para a Valores em Dólares 
Data de Vencimento (milhões) 
20 20 
12 30 
7 10 
5 15 
6 10 


70. Os automóveis que trafegam em uma rodovia com limite de velocidade fixado em 55 milhas por hora 
(88,51 km/h) têm a velocidade mostrada por um sistema de radares da polícia estadual. Uma distri- 
buição da freqüéncia das velocidades é apresentada a seguir: 


Velocidade 
(milhas por hora) Fregiiência 
45-49 10 
50—54 40 
55—59 150 
60—64 175 
65—69 75 
70-74 15 
75-79 10 


Total. 475 


a. Qual é a velocidade média dos automóveis que trafegam nessa rodovia? 
b. Calcule a variáncia e o desvio padráo. 


Estudo de Caso 1 - Pelican Stores 


A Pelican Stores, uma cadeia de lojas de vestuário feminino que opera em todos os Estados Unidos, rea- 
lizou recentemente uma promoção na qual cupons de desconto eram enviados a clientes das lojas associa- 
das. Dados coletados de uma amostra de 100 transações com cartão de crédito na loja durante um dia em 
novembro de 2002 se encontram no arquivo intitulado Pelican. A Tabela 3.14 apresenta uma parte do con- 
junto de dados. Um valor não-igual a zero para a variável desconto indica que a cliente trouxe os cupons 
promocionais e os usou. Para alguns clientes, o valor do desconto é maior que o valor das vendas (veja o 
Cliente 4). O valor das vendas é líquido, sem descontos ou trocos. 


Tabela 3.14 Dados de uma amostra de 100 compras com cartões de crédito nas lojas Pelican 


С) À 


Método de Valor do Estado 
T Cliente Pagamento Artigos Desconto Vendas Sexo Civil Idade 
ARQUIV ! Discover 0,00 39,50 Masculino Casado 32 
DA INTERNET 2 Proprietary Card 25,60 102,40 Feminino Casada 36 
Pelican 3 Proprietary Card 0,00 22,50 Feminino Casada 32 
4 Proprietary Card 5 121,10 100,40 Feminino Casada 28 
5 Mastercard 2 0,00 54,00 Feminino Casada 34 
96 Mastercard 0,00 39,50 Feminino Casada 44 
97 Proprietary Card 9 82,75 253,00 Feminino Casada 30 
98 Proprietary Card 10 18,00 287,59 Feminino Casada 52 
99 Proprietary Card 2 31,40 47,60 Feminino Casada 30 
100 Proprietary Card 11,06 28,44 Feminino Casada 44 


A administracáo das lojas Pelican quer usar essa amostra para conhecer sua base de clientes e para ava- 
liar a promoção envolvendo cupons de desconto. 
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Relatório Administrativo 


Use os métodos de estatística descritiva apresentados neste capítulo para sintetizar os dados e comente 
suas descobertas. No mínimo, seu relatório deve incluir o seguinte: 


l. A estatística descritiva das vendas e a estatística descritiva das vendas de acordo com várias classi- 
ficações de clientes. 


2. A estatística descritiva da relação entre o valor do desconto e as vendas para os clientes que respon- 
deram à promoção. 


3. A estatística descritiva da relação entre idade e vendas. 


Comente quaisquer resultados que pareçam interessantes e de valor potencial para a administração. 


Estudo de Caso 2 - National Health Care Association 


A National Health Care Association está preocupada com a escassez de enfermeiras que o setor de enfer- 
magem projeta para o futuro. Para saber qual é o grau atual de satisfação no trabalho entre as profissio- 
nais, a associação patrocinou um estudo das enfermeiras de hospital em todo o território nacional dos 
Estados Unidos. Como parte desse estudo, 50 enfermeiras de uma amostra indicaram seus níveis de satis- 
fação com o trabalho, com seus salários e com suas oportunidades de promoção. Cada um dos três aspec- 
tos de satisfação foi medido em uma escala de 0 a 100, com os valores mais altos indicando níveis mais 
elevados de satisfação. Os dados coletados também mostraram os tipos de hospital que empregam as enfer- 
meiras. Os tipos de hospital eram particular, Veterans Administration (VA)2 e universitário. Uma parte dos 
dados se encontra na Tabela 3.15. O conjunto de dados completo pode ser encontrado no site www.thom- 
sonlearning.com.br/estatapl.htm, no arquivo intitulado Health. 


Tabela 3.15 Dados do nível de satisfação no trabalho de uma amostra de 50 enfermeiras 


Enfermeira Hospital Trabalho Remuneração Promoção 
| Particular 74 47 63 
2 Veterans Administration (VA) 72 76 37 
3 Universitário 75 53 92 
4 Particular 89 66 62 
5 Universitário 69 47 16 
6 Particular 85 56 64 
7 Universitário 89 80 64 
8 Particular 88 36 47 
9 Universitário 88 55 52 

10 Particular 84 42 66 
45 Universitário 79 59 4! 
46 Universitário 84 53 63 
47 Universitário 87 66 49 
48 Veterans Administration (VA) 84 74 37 
49 Veterans Administration (VA) 95 66 52 
50 Particular 72 57 40 


Relatório Administrativo 


Use métodos de estatística descritiva para sintetizar os dados. Apresente sumários que sejam eficientes em 
termos de comunicar os resultados a outras pessoas. Discuta suas descobertas. Especificamente, comente 
as seguintes questóes: 


12 NT: Órgão federal consolidado que administra todas as leis que regem os benefícios para veteranos das Forças Armadas. 
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1. Com base no conjunto de dados inteiro e nas três variáveis de satisfação no trabalho, qual aspecto 
do trabalho é o mais satisfatório para as enfermeiras? Qual parece ser o menos satisfatório? Em 
quais áreas, se for o caso, você acha que se devem fazer melhorias? Discuta o assunto. 


2. Com base nas medidas descritivas de variabilidade, qual medida de satisfação no trabalho parece 
gerar a maior diferença de opinião entre as enfermeiras? Explique. 


3. O que se pode aprender em relação aos tipos de hospital? Um tipo de hospital em particular pare- 
ce apresentar melhores níveis de satisfação no trabalho que os outros? Os resultados que você obte- 
ve sugerem alguma recomendação para que se possa conhecer e melhorar a satisfação no trabalho? 
Discuta o assunto. 


4. Qual estatística descritiva e insights adicionais você é capaz de usar para conhecer e possivelmen- 
te melhorar a satisfação no trabalho? 


Estudo de Caso 3 — Escolas de Administração da Região Ásia-Pacífico 


A busca de um diploma de nível superior em administração agora é internacional. Uma pesquisa revela 
que um número cada vez maior de asiáticos optam pelo caminho da graduação em MBA — Master of 
Business Administration — para chegar ao sucesso corporativo (Ásia, Inc., setembro de 1997). O número 
de candidatos em cursos de MBA em escolas da região Ásia-Pacífico continua a crescer cerca de 30% ao 
ano. Em 1997, as 74 escolas de administração da região Ásia-Pacífico registraram um recorde de 170 mil 
candidatos aos 11 mil diplomas de MBA de tempo integral (full-time) que seriam concedidos em 1999. 
Uma das razões principais para o crescimento da demanda é que um MBA pode aumentar substancialmen- 
te o poder remunerativo. 

Em toda a região, milhares de asiáticos demonstram uma crescente disposição para interromper tem- 
porariamente suas carreiras e despender dois anos em busca de uma qualificação teórica em administra- 
ção. Os cursos ministrados nessas escolas são notoriamente árduos e incluem economia, operações bancá- 
rias, marketing, ciências comportamentais, relações no trabalho, tomada de decisões, pensamento estraté- 
gico, direito comercial e outros. A Ásia, Inc., forneceu o conjunto de dados da Tabela 3.16, a qual apre- 
senta algumas das características das principais escolas de administração da região Ásia-Pacífico. 


Relatório Administrativo 


Use os métodos de estatística descritiva para sintetizar os dados da Tabela 3.16. Discuta suas descobertas. 


1. Inclua um sumário correspondente a cada variável do conjunto de dados. Faça comentários e interpre- 
tações baseadas nos máximos e mínimos, bem como nas médias e proporções apropriadas. Quais novos 
insights essas estatísticas descritivas ofereceriam em relação às escolas de administração da região 
Ásia-Pacífico? 

2. Sintetize os dados para comparar o seguinte: 

a. Quaisquer diferenças entre os custos de instrução no local e no exterior. 

b. Quaisquer diferenças entre a média dos salários iniciais das escolas que exigem experiência profis- 
sional e as que não exigem. 

c. Quaisquer diferenças entre os salários iniciais das escolas que exigem exames de inglês e as que não 
exigem. 


3. Os salários iniciais parecem estar relacionados aos custos de instrução? 


Apresente quaisquer sumários gráficos e numéricos adicionais que sejam benéficos em termos de 
comunicar os dados da Tabela 3.16 a outras pessoas. 


Tabela 3.16 Dados de 25 escolas de administração da região Ásia-Pacífico 


Escola de Administração 


Melbourne Business School 

University of New South Wales (Sydney) 

Indian Institute of Management (Ahmedabad) 

Chinese University of Hong Kong 

International University of Japan (Niigata) 

Asian Institute of Management (Manila) 

Indian Institute of Management (Bangalore) 

National University of Singapore 

Indian Institute of Management (Calcutta) 

Australian National University (Canberra) 

Nanyang Technological University (Singapore) 

University of Queensland (Brisbane) 

Hong Kong University of Science and Technology 

Macquarie Graduate School of Management (Sydney) 

Chulalongkorn University (Bangkok) 

Monash Mt. Eliza Business School (Melbourne) 

Asian Institute of Management (Bangkok) 

University of Adelaide 

Massey University (Palmerston North, New Zealand) 

Royal Melbourne Institute of Technology Business 
Graduate School 

Jamnalal Bajaj Institute of Management Studies (Bombay) 

Curtin Institute of Technology (Perth) 

Lahore University of Management Sciences 

Universiti Sains Malaysia (Penang) 

De La Salle University (Manila) 


Matrícula em 
Curso de Tempo 
Integral 


Nümero de 
Estudantes 
por Docente 


Ui «D Ф ш м оо кә фал NJ 00 OS Un їл AN AI 


M ол Cn so c 


Custo de 
Instrução 
Local 


24.420 
19.993 
4.300 
11.140 

33.060 
7.562 
3.935 
6.146 
2.880 

20.300 

8,500 
6.000 

1.513 
7.72 
7.355 
6.200 
8.200 
6.426 
3.106 


3.880 
1.000 
9.475 

1.250 
2.260 
3.300 


Custo de 
Instrução Porcentagem 
no Exterior Idade de Estrangeiros 
29.600 28 47 
32.582 29 28 
4.300 22 0 
1.140 29 10 
33.060 28 60 
9.000 25 50 
6.000 23 | 
7.170 29 51 
6.000 23 0 
20.300 30 80 
8.500 32 20 
22.800 32 26 
1.513 26 37 
9.778 34 27 
7.355 25 6 
22.500 30 30 
8.200 29 90 
23.100 30 10 
21.625 37 35 
7.765 32 30 
1.000 24 0 
9.097 29 43 
26.300 23 2.5 
2.260 32 15 
3.600 28 3.5 


GMAT 
Sim 
Sim 
Мао 
Sim 
Sim 
Sim 
Sim 
Sim 
Мао 
Sim 
Sim 
Náo 
Sim 
Não 
Sim 
Sim 
Não 
Não 
Não 


Não 
Não 
Sim 
Não 
Não 
Sim 


Exame de Experiência 


Inglês 
Não 
Não 
Não 
Não 
Sim 
Não 
Não 
Sim 
Não 
Sim 
Não 
Não 
Não 
Não 
Não 
Sim 
Sim 
Não 
Sim 


Sim 
Não 
Não 
Não 
Sim 
Não 


Profissional 
Sim 
Sim 
Não 
Não 
Não 
Sim 
Não 
Sim 
Não 
Sim 
Sim 
Sim 
Sim 
Sim 
Sim 
Sim 
Sim 
Sim 
Sim 


Sim 
Sim 
Sim 
Não 
Sim 
Sim 


Salário 
Inicial 
(US$) 
71.400 
65.200 
7.100 
31,000 
87.000 
22.800 
7.500 
43.300 
7.400 
46.600 
49.300 
49.600 
34.000 
60.100 
17.600 
52.500 
25.000 
66.000 
41.400 


48.900 
7.000 
55.000 
7.500 
16.000 
13.100 


13 NT: Graduate Management Admission Test. 
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Apêndice 3.1 — Estatística Descritiva com o Minitab 


Neste Apêndice, descrevemos como usar o Minitab para desenvolver estatísticas descritivas. A Tabela 3.1 
relacionou os salários iniciais de 12 diplomados da escola de administração. O painel A da Figura 3.11 
apresenta a estatística descritiva obtida usando-se o Minitab para sintetizar esses dados. As definições dos 
cabeçalhos do Painel A são as seguintes: 


N Número de valores de dados 
N* Número de dados que faltam 
Média Média 
EP da Média Erro padrão da média 
StDev Desvio padrão 
Mínimo Valor mínimo de dados 
Q1 Primeiro quartil 
Mediana Mediana 
Q3 Terceiro quartil 
Máximo Valor máximo de dados 


O rótulo “EP da Média” (na Tabela 3.16) refere-se ao erro padrão da média. Ele é calculado dividin- 
do-se o desvio padrão pela raiz quadrada de N. A interpretação e o uso dessa medida serão discutidos no 
Capítulo 7, quando introduziremos o tema da amostragem e das distribuições de amostragem. 

Não obstante as medidas numéricas de amplitude, amplitude interquartil, variância e coeficiente de 
variação não aparecerem na saída do Minitab, esses valores podem ser facilmente calculados a partir dos 
resultados contidos na Figura 3.11 da seguinte maneira: 


Amplitude = Máximo — Mínimo 
AIQ = 0-0; 
Variância = (StDev)? 
Coeficiente de Variação = (StDev/Média) x 100 


Finalmente, observe que os quartis Q, = 2.857,5 e Q3 = 3.025 do Minitab são ligeiramente diferentes 
dos quartis О, = 2.865 e Q; = 3.000 calculados na Seção 3.1. As diferentes convenções* usadas para iden- 
tificar os quartis explicam essa variação. Portanto, os valores de О; e Оз fornecidos por uma convenção 
podem não ser idênticos aos valores de Q е Оз fornecidos por outra convenção. Entretanto, quaisquer 
diferenças tendem a ser desprezíveis, e os resultados apresentados não induzirão os usuários a erro ao faze- 
rem as interpretações habituais associadas aos quartis. 

Vejamos agora como as estatísticas da Figura 3.11 são geradas. Os dados de salários iniciais estão na colu- 
na C2 de uma planilha do Minitab. As etapas a seguir podem ser usadas para gerar a estatística descritiva. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Basic Statistics 

Etapa 3. Escolha Display Descriptive Statistics 

Etapa 4. Quando a caixa de diálogo Display Descriptive Statistics aparecer: 
Digite C2 na caixa Variables 
Dê um clique em OK 


*Comasn observações organizadas em ordem crescente (do menor para o maior valor), o Minitab usa as posições fornecidas por 
{л + 1)/4 e (3n + 1)/4 para localizar Q4 e Q3, respectivamente. Quando uma posição é fracionária, o Minitab faz a interpolação entre 
os dois valores de dados dispostos em ordem adjacente para determinar o quartil correspondente. 
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Figura 3.11 Estatística descritiva e desenho esquemático produzidos pelo Minitab 


Painel A: Estatística Descritiva 


N N* Média EP da Média Desvio Padráo 
12 0 2.940,0 47,8 165,7 
Mínimo QI Mediana Q3 Máximo 
2.710,0 2.857,5 2.905,0 3.025,0 3.3250 
Painel B: Desenho Esquemático (Box plot) 
3.300 ' 


3.200 
3.100 
3.000 
2.900 
2.800 
2.700 


O Painel B da Figura 3.11 é um desenho esquemático produzido pelo Minitab. O retângulo traçado do 
primeiro ao terceiro quartis contém os 50% intermediários dos dados. A linha contida no retângulo assi- 
nala a mediana, O asterisco indica um ponto fora da curva em 3.325. 

As etapas a seguir geram o desenho esquemático apresentado no Painel B da Figura 3.11. 


Etapa 1. Selecione o menu Graph 

Etapa 2. Escolha Boxplot 

Etapa3. Selecione Simple e dê um clique em OK 

Etapa 4. Quando a caixa de diálogo Boxplot-One Y, Simple aparecer: 
Digite C2 na caixa Graph variables 
Dé um clique em OK 


A medida de assimetria também não aparece como parte dos dados de saída (output) de estatística 
descritiva padráo do Minitab. Entretanto, podemos incluí-la na tela de estatística descritiva seguindo 
essas etapas: 


Etapa 1. Selecione o menu Stat 
Etapa 2. Escolha Basic Statistics 
Etapa3. Escolha Display Descriptive Statistics 
Etapa 4. Quando a caixa de diálogo Display Descriptive Statistics aparecer: 
Dé um clique em Statistics 
Selecione Skewness 
Dé um clique em OK 
Dé um clique em OK 


A medida de assimetria 1,09 aparecerá entáo em sua planilha. 

A Figura 3.12 mostra os dados de saída (output) de covariância e correlação que o Minitab produziu 
para os dados referentes à loja de equipamentos de som da Tabela 3.7. Na parte da figura relativa à cova- 
riáncia, nº de comerciais indica o número de comerciais de televisão de fins de semana, e volume de 
Vendas indica as vendas durante a semana seguinte. O valor 11 indicado na coluna nº de comerciais e na ARQUIVO 
linha Volume de Vendas é a covariância da amostra, de acordo com o que foi calculado na Seção 3.5.0 рд INTERNET 
valor 2.22222 na coluna nº de comerciais e na linha nº de comerciais é a variância da amostra do número 
de comerciais, e o valor 62.88889 na coluna volume de vendas e na linha volume de vendas é a variância 
da amostra correspondente às vendas. O coeficiente de correlação da amostra, 0,930, é mostrado na parte 
correspondente à correlação nos dados de saída. Nota: A interpretação do valor p = 0,000 será discutida 
no Capítulo 9. 
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Figura 3.12 Covariância e correlação entre o número de comerciais e de vendas produzidas pelo Minitab 


» Covariâncias: Nº de Comerciais, Volume de Vendas mos 


, Nº de Comerciais ` , Volume de Vendas á 
Nº de Comerciais ` 2.22222 " E o ^ x 
62.88889 


Volume de Vendas . 11.00000 


А 3 


Correlações: nº “de Comerciais, volume de Vendas 


Correlação de Pearson entre o Neide Comerciais e o Volume das 
Vendas * Й à ; ; ГА 
Valor р = 0.000 , А 


Vamos descrever, agora, como obter a informação da Figura 3.12. Introduzimos os dados referentes ao 
nümero de comerciais na coluna C2 e os dados referentes ao volume de vendas na coluna C3 de uma pla- 
nilha Minitab. As etapas necessárias para gerar os dados de saída de covariáncia que foram apresentados 
nas trés primeiras linhas da Figura 3.12 sáo mostradas a seguir: 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Basic Statistics 

Etapa3. Escolha Covariance 

Etapa 4. Quando a caixa de diálogo Covariance aparecer: 
Digite C2 C3 na caixa Variables 
Dê um clique em OK 


Para se obter os dados de saída (output) de correlação apresentados na Figura 3.12, somente uma 
mudança é necessária nas etapas destinadas à obtenção da covariância. Na etapa 3, a opção Correlation é 
selecionada. 


Apéndice 3.2 – Estatística Descritiva com o Excel 


O Excel pode ser usado para gerar a estatística descritiva discutida neste capítulo. Mostramos como o 
Excel pode ser usado para gerar diversas medidas de posição e de variabilidade de uma única variável e 
para gerar a covariáncia e o coeficiente de correlação como medidas da associação entre duas variáveis. 


Como Usar Funções do Excel 


O Excel oferece funções para calcular a média, a mediana, a moda, a variância da amostra e o desvio 
padrão. Ilustramos o uso das funções do Excel calculando a média, a mediana, a moda, a variância da 
amostra e o desvio padrão dos dados de salários iniciais da Tabela 3.1. Consulte a Figura 3.13 à medida 
que descrevermos as etapas envolvidas. Os dados estão inseridos na coluna B. 

A função MÉDIA do Excel pode ser utilizada para calcular a média ao digitarmos a seguinte fórmula 
na célula El: 


=MÉDIA(B2:B13) 


Similarmente, as fórmulas =MED(B2:B13), =MODO(B2:B13), -VAR(B2:B13) e =DES- 
VPAD(B2:B13) são inseridas nas células E2:E15, respectivamente, para calcular a mediana, a moda, a 
variância e o desvio padrão. 
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Figura 3.13 O uso de funções do Excel para calcular a média, a mediana, a moda, 
a variância e o desvio padrão 
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A. B с] р 
1 | Graduados | Salário Inicial Média 
ERE 850 x] Mediana [= 
3|2 | Moda 
4/3 =) 4 Variância + 
5|4 ] desvio padráo 
65 Cd 
[7 6 [2710 = = A IT. в. с [р D č: E Е] 
8/7 [2890 1 [Graduados | Salário Inicial | Média | ^ 2948 
9 |8 [3130 * E 2) af TE 3850 Mediana | y 2905 
10/9 12940 EX 2| Moda| ^ 2880 
11/10 [3325 4 з | 3050 Lo Variância [27440.91 
оп [2920 > 5 4j 2880! Desvio Padrão |. 165.65 
13|12 [2880 me [6 5| 2155 
14 7 6| + 2710; 
8 7 2890 |. 
9 8 3130 
10 9 2940 
n 10) 3325 | - 
12 1] + 2920 
13) 3]l- 2880 | | 
14 


A planilha que está em primeiro plano mostra que os valores computados usando-se funções do Excel 
são idênticos aos valores calculados anteriormente neste capítulo. 

O Excel também provê funções que podem ser usadas para calcular a covariância e o coeficiente de 
correlação. Devemos ser cautelosos ao usar essas funções, uma vez que a função de covariância trata os 
dados como se estes fossem uma população, e a função de correlação trata os dados como uma amostra. 
Desse modo, o resultado obtido usando-se a função de covariância do Excel deve ser ajustado de forma 
que forneça a covariância da amostra. Mostramos aqui como essas funções podem ser usadas para calcu- 
lar a covariância da amostra e o coeficiente de correlação da amostra dos dados da loja de equipamentos 
de som da Tabela 3.7. Consulte a Figura 3.14 à medida que apresentarmos as etapas envolvidas. 

A função de covariância do Excel, COVAR, pode ser usada para calcular a covariância da população 
ao digitarmos a seguinte fórmula na célula F1: 


-COVAR(B2:B11,C2:C11) 


Similarmente, a fórmula ZCORREL(B2:B11,C2:C11) é inserida na célula F2 para calcular о coeficien- 
te de correlação da amostra. A planilha apresentada em segundo plano mostra os valores calculados usan- 
do-se as funções do Excel. Observe que o valor do coeficiente de correlação da amostra (0,93) é idêntico 
ao calculado usando-se a Equação (3.12). No entanto, o resultado 9,9 produzido pela função COVAR do 
Excel foi obtido tratando-se os dados como uma população. Desse modo, precisamos ajustar o resultado 
9,9 do Excel para obtermos a covariância da amostra. O ajuste é bastante simples. Primeiramente, note que 
a fórmula para a covariância da população, a Equação (3.11), exige uma divisão pelo número total de 
observações no conjunto de dados. Mas a fórmula para a covariância da amostra, a Equação (3.10), exige 
uma divisão pelo número total de observações menos 1. 
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Figura 3.14 O uso de funções do Excel para calcular a covariância e a correlação 


ARQUIVO 
DA INTERNET 
Salary 


А, | B^ с D NE TE = 
1 |Semana| Comerciais |Vendas Covariáncia da População 
[2| 1 |* 2 5| 50 | | Correlação da Amostra [-CORREL(BZ:BILCZ:CIHI 
3i 2 5 57 
413 [| q^ 7 4 B^ CT W с 
5 4 | 3 54 1 Comerciais |Vendas Covariáncia da Populacáo 9,90] É 
6| 5 |" '4 54 | 2 MER 50 | Correlação da Amostra [0,93 
7| 6 |. 1 38 | 3 `5 «| 57У] 
8/7 Bi 63 | 4 1 ^| 41 | 
i9| 8 | 3 4 | 5 23. „|54 
"10| 9 "o4 59 6 4 54 
m[ 1 | 2. |% [7 ls al 38. 
i| | n 5 16 
9 За 41.48 « 
10 4 59 | 
n M2 x qu] 46 i 
12 


Entáo, para usarmos o resultado do Excel, 9,9, para calcular a соуагїйпсїа da amostra, simplesmente 
multiplicamos 9,9 por n/(n — 1). Uma vez que n = 10, obtemos; 


sy = (5) -11 


Assim, a covariância da amostra para os dados da loja de equipamentos de som é 11. 


Como Usar a Ferramenta Estatística Descritiva do Excel 


Conforme já demonstramos, o Excel oferece funções estatísticas para calcular estatísticas descritivas de 
um conjunto de dados. Essas funções podem ser usadas para calcular uma estatística a cada vez (por exem- 
plo, a média, a variância etc.). O Excel também oferece uma série de Ferramentas de Análise de Dados. 
Uma dessas ferramentas, cujo nome é Estatística Descritiva, permite ao usuário calcular uma série de esta- 
tísticas descritivas simultaneamente. Mostramos aqui como ela pode ser usada para calcular as estatísticas 
descritivas dos dados de salários iniciais apresentados na Tabela 3.1. Consulte a Figura 3.15 à medida que 
descrevermos as etapas envolvidas. 


Etapa 1. Selecione o menu Ferramentas 
Etapa 2. Escolha Análise de Dados 
Etapa 3. ^ Quando a caixa de diálogo Análise de Dados aparecer: 
Escolha Estatística Descritiva 
Dê um clique em OK 
Etapa 4. Quando a caixa de diálogo Estatística Descritiva aparecer: 
Digite B1:B13 na caixa Intervalo de Entrada 
Selecione Agrupado por Colunas 
Selecione Rótulos na Primeira Linha 
Selecione Intervalo de Saída 
Digite D1 na caixa Intervalo de Saída (para identificar o canto superior esquerdo 
da parte da planilha em que a estatística descritiva aparecerá) 
Selecione Resumo Estatístico 
Dê um clique em OK 
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Figura 3.15 Dados de saída (output) da ferramenta estatística descritiva do Excel 

- IT | c “эт -E F 
| 1- | Graduados| Salário Inicial Salário Inicial 

2 1p — 85 

3 2] a * 52950 Média 2940 

14 3j 3050 Erro Padrão 47.82 

4| 7 2880 Mediana 2905 

6 Sha 2755 Moda 2880 

[7 6l 2710 Desvio Padrão 165,65 
[8] 1| 2890] Variância da Amostra | 27440,91 
[9 | 8 3130] Achatamento 1.7189 

10 9| = * *=2940] Assimetria 1.0911 

п: 10 " 3325 Amplitude 615 

12 11j 2920 Mínimo 2710 

13 12 id 2880 Máximo 3325 

14 Soma 35280 

15 Contagem 12 

16 


As células DI:E15 da Figura 3.15 apresentam a estatística descritiva produzida pelo Excel. As entra- 
das em negrito são as estatísticas descritivas que abordamos neste capítulo. As estatísticas descritivas que 
não estão em negrito ou serão abordadas posteriormente ou serão discutidas mais detalhadamente ao longo 


do livro. 


CAPÍTULO 4 


Introdução à 
Probabilidade 


ESTATÍSTICA NA PRÁTICA 


MORTON INTERNATIONAL* 
Chicago, Illinois 


A Morton International é uma empresa que comercializa sal, produtos domésticos, motores de foguetes e 
química fina. A Carstab Corporation, uma subsidiária da Morton International, produz química fina e disponi- 
biliza uma série de produtos químicos concebidos para cumprir as especificações exclusivas de seus clientes. 
Para um cliente em particular a Carstab produziu um custoso catalisador que é usado no processamento de 
produtos químicos. Alguns lotes, mas não todos, produzidos pela Carstab satisfazem as especificações do 
cliente para o produto. 

O cliente da Carstab concordou em testar cada lote depois de recebê-lo e determinar se o catalisador 
desempenharia a função desejada. Os lotes que não fossem aprovados no teste realizado pelo cliente seriam 
devolvidos à Carstab. No decorrer do tempo, a Carstab descobriu que o cliente aceitava 60% dos lotes e 
devolvia 4096. Em termos de probabilidade, cada remessa da Carstab ao cliente tinha uma probabilidade de 
0,60 de ser aceita e uma probabilidade de 0,40 de ser devolvida. 

Nem a Carstab nem seu cliente estavam satisfeitos com esses resultados. Em um esforço para melhorar 
o serviço, a Carstab explorou a possibilidade de reproduzir o teste do cliente antes do embarque. Entretanto, 
o alto custo dos equipamentos especiais de teste tomou inviável essa alternativa. Os químicos da Carstab pro- 


* Os autores agradecem a Michael Haskell, da Morton International, por fornecer esta “Estatística na Prática”. 
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puseram então um novo teste de custo relativamente baixo idealizado para indicar se um lote seria aprovado 
no teste do cliente. A questão de probabilidade envolvida era: qual a probabilidade de um lote ser aprovado no 
teste do cliente se tivesse sido aprovado no novo teste da Carstab? 

Uma amostra de lotes foi produzida e submetida ao novo teste da Carstab. Somente os lotes aprovados no 
novo teste eram enviados ao cliente. A análise probabilística dos dados indicou que, se um lote fosse aprovado 
no teste da Carstab, teria uma probabilidade de 0,909 de ser aprovado no teste do cliente e ser aceito. 
Alternativamente, se um lote fosse aprovado no teste da Carstab, teria somente uma probabilidade de 0,091 
de ser devolvido. A análise probabilística forneceu uma comprovação fundamental para a adoção e implemen- 
tação dos novos procedimentos de teste na Carstab. O novo teste resultou em uma melhoria imediata do aten- 
dimento ao cliente e em uma redução substancial dos custos de embarque e manuseio dos lotes devolvidos. 

A probabilidade de um lote ser aceito pelo cliente depois de ser aprovado no novo teste da Carstab deno- 
mina-se probabilidade condicional. Neste capítulo, você aprenderá a calcular esta e outras probabilidades que 
são úteis no processo de tomada de decisões. 


Os gerentes freqüentemente fundamentam suas decisões em uma análise de incertezas, como as que 
apresentamos a seguir: 


1. Quais são as chances de queda das vendas se aumentarmos os preços? 

2. Qual é a probabilidade de um novo método de montagem aumentar a produtividade? 
3. Qual é a probabilidade de o projeto ser concluído no prazo? 

4. Qual é a chance de um novo investimento ser lucrativo? 


Probabilidade é uma medida numérica da possibilidade de um evento ocorrer. Desse modo, podemos 
usar probabilidades como medidas do grau de incerteza associado aos quatro eventos anteriormente rela- 
cionados. Se houver probabilidades disponíveis, podemos determinar a possibilidade de cada um dos even- 
tos ocorrer. 

Valores probabilísticos sempre são atribuídos em uma escala de O a 1. Uma probabilidade próxima de 
O indica que é improvável que um evento ocorra; uma probabilidade próxima de 1 revela que a ocorrência 
de um evento é quase certa. 

Outras probabilidades entre O e 1 representam o grau de possibilidade de um evento vir a ocorrer. Por 
exemplo, se considerarmos o evento “chover amanhã”, entendemos que, quando o boletim meteorológico 
indica “uma probabilidade de chuva próxima de zero”, isso quer dizer que não há quase chance alguma de 
chover. Entretanto, se houver a indicação de 0,90 de probabilidade de chuva, saberemos que é provável que 
ocorra chuva. Uma probabilidade de 0,50 mostra que tanto é possível chover como não. A Figura 4.1 retra- 
ta a imagem da probabilidade como uma medida numérica da possibilidade de um evento ocorrer. 


4.1 EXPERIMENTOS, REGRAS DE CONTAGEM E ATRIBUINDO 
PROBABILIDADES 
Ao discutirmos a probabilidade, definimos um experimento como um processo que gera resultados bem defi- 


nidos. Em uma única repetição de um experimento, ocorrerá um, e somente um, dos resultados experimen- 
tais possíveis. Diversos exemplos de experimentos e seus respectivos resultados são apresentados a seguir: 


Experimento Resultados Experimentais 
Jogar uma moeda Cara, coroa 

Selecionar uma peça para inspeção Defeituosa, não-defeituosa 
Fazer um contato de vendas Comprar, não comprar 
Lançar um dado 1,2,3, 4, 5,6 

Jogar uma partida de futebol Ganhar, perder, empatar 


Ао especificar todos os resultados possíveis, identificamos o espaço amostral de um experimento. 


ESPAÇO AMOSTRAL 
O espaço amostral de um experimento é o conjunto de todos os resultados experimentais. 
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Um resultado experimental também é chamado ponto amostral para identificá-lo como um elemento 
do espaço amostral. 


Figura 4.1 A probabilidade como uma medida numérica da possibilidade de ocorrência de um evento 


Possibilidade Crescente de Ocorrência 


„— 


0 0,5 10 
Probabilidade: 


! 


А ocorrência do evento é tão 
provável quanto improvável 


Considere o primeiro experimento da tabela anterior — jogar uma moeda. A face da moeda voltada para 
cima — cara ou coroa — determina os resultados experimentais (pontos amostrais). Dado que 5 denota o 
espaço amostral, podemos usar a seguinte notação para descrever o espaço amostral: 


S = (Cara, Coroa} 


O espaço amostral do segundo experimento da tabela — selecionar uma peça para inspeção — pode ser 
descrito da seguinte maneira: 


S = [Defeituoso, Não defeituoso) 


Ambos os experimentos que acabamos de descrever têm dois resultados experimentais (pontos amos- 
trais). Entretanto, suponha que consideremos o quarto experimento relacionado na tabela: lançar um dado. 
Os resultados experimentais possíveis, definidos como o número de pontos que aparecem na face superior 
do dado, são os seis pontos do espaço amostral desse experimento: 


S = {1,2, 3,4, 5,6} 


Regras de Contagem, Combinações e Permutações 


Ser capaz de identificar e contar os resultados amostrais é uma etapa necessária na atribuição de probabi- 
lidades. Vamos discutir agora três regras de contagem úteis. 


Experimentos em múltiplas etapas. A primeira regra de contagem aplica-se a experimentos que são fei- 
tos em múltiplas etapas. Considere o experimento de jogar duas moedas. Digamos que os resultados sejam 
definidos em termos do padrão de caras e coroas que aparecem nas faces voltadas para cima das duas moe- 
das. Quantos resultados experimentais são possíveis para esse experimento? O experimento de jogar duas 
moedas pode ser imaginado como um experimento de duas etapas no qual a etapa 1 consiste em lançar a 
primeira moeda, e a etapa 2, em lançar a segunda moeda. Se usarmos H para denotar cara e T, para coroa 
(H, H), isso indicará o espaço experimental com cara na primeira moeda e coroa na segunda moeda. 
Prosseguindo com essa notação, podemos descrever o espaço amostral (5) desse experimento de lançar a 
moeda da seguinte maneira: 


S = (2, Н), (Н, T), T, Н), (Т, Т)) 


Desse modo, notamos que quatro resultados experimentais são possíveis. Nesse caso, podemos enume- 
rar facilmente todos os resultados experimentais. 

A regra de contagem de experimentos em múltiplas etapas torna possível determinar o número de 
resultados experimentais sem enumerá-los. 


REGRA DE CONTAGEM DE EXPERIMENTOS EM MÚLTIPLAS ETAPAS 

Se um experimento pode ser descrito como uma seqüéncia de k etapas com n, resultados possíveis па 
primeira etapa, n resultados possíveis na segunda etapa e assim por diante, o número total de resulta- 
dos experimentais será dado por (nj) (m). . . (ny). 
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Considerando o experimento de lançar duas moedas como uma seqüéncia de lançar primeiro uma 
moeda (n, = 2) e depois lançar a outra moeda (n; = 2), podemos ver a partir da regra de contagem 
que há (2)(2) = 4 resultados experimentais distintos. Conforme mostramos anteriormente, eles são 
S = ((H, Н), (Н, T), (T, Н), (T, Ту}. O número de resultados em um experimento que envolve lançar 
seis moedas é (2)(202)2)02)2) = 64. 

Um diagrama em árvore é uma representação gráfica que ajuda a visualizar um experimento em mül- 
tiplas etapas. A Figura 4.2 mostra um diagrama em árvore correspondente ao experimento de 1апсаг duas 
moedas. À seqüéncia de etapas desloca-se da esquerda para a direita ao longo do diagrama. A.etapa 1 cor- 
responde ao lançamento da primeira moeda, e a etapa 2 refere-se ao lançamento da segunda moeda. Para 
cada etapa, os dois resultados possíveis são cara ou coroa. Note que, para cada resultado possível na etapa 
1, há duas ramificações que correspondem aos dois resultados possíveis na etapa 2. Cada um dos pontos 
no lado direito da árvore referentes aos dois resultados possíveis corresponde a um resultado experimen- 
tal, Cada percurso ao longo da árvore, do nó localizado na extremidade esquerda a um dos nós no lado 
direito da árvore, corresponde a uma segiiência individual de resultados. 

Vejamos agora como a regra de contagem de experimentos em múltiplas etapas pode ser usada na aná- 
lise de um projeto de ampliação da capacidade na Kentucky Power & Light Company (KP&L). A KP&L 
está iniciando um projeto idealizado para aumentar a capacidade de geração de energia em uma de suas 
usinas ao norte de Kentucky. O projeto divide-se em duas etapas, ou passos, sequenciais: etapa 1 (proje- 
to) e etapa 2 (construção). Não obstante cada etapa estar programada e ser controlada o mais cuidadosa- 
mente possível, a administração não é capaz de prever o tempo exato necessário para o término de cada 
fase do projeto. Uma análise de projetos de construção similares revelou que os prazos de término possí- 
veis para a fase de elaboração do projeto seriam 2, 3 ou 4 meses, e que os prazos de término para a fase 
de construção seriam 6, 7 ou 8 meses. Além disso, em virtude da necessidade crítica de energia elétrica 
adicional, a administração estabeleceu uma meta de dez meses para a conclusão total do projeto: 

Desde que esse projeto tem três prazos de término possíveis para a fase de elaboração do projeto (etapa 1) 
e três prazos de término possíveis para a fase de construção (etapa 2), a regra de contagem para experimen- 
tos em múltiplas etapas pode ser aplicada nesse caso para determinar um total de (3)(3) = 9 resultados expe- 
rimentais. Para descrever os resultados experimentais, usaremos uma notação de dois números: por exemplo, 
(2, 6) indica que a fase de projeto será concluída em dois meses e a fase de construção, em 6 meses. Esse resul- 
tado experimental representa um total de 2 + 6 = 8 meses para a conclusão total do projeto. A Tabela 4.1 
sintetiza os nove resultados experimentais para o problema da KP&L. O diagrama em árvore da Figura 4.3 
mostra como ocorrem os nove resultados (pontos amostrais). 

A regra de contagem e o diagrama em árvore ajudam o gerente de projetos a identificar os resultados 
experimentais e determinar os prazos possíveis para o término do projeto. A partir da informação da Figura 
4.3, notamos que o projeto será concluído em um prazo de oito a 12 meses, com seis dos nove resultados 
experimentais apresentando o prazo de conclusão desejado de dez meses ou menos. 


Figura 4.2 Diagrama em árvore do experimento de lançar duas moedas 


Resultado 
Etapa 2 | Experimental 
Segunda Moeda ! (Ponto Amostral) 
1 


Etapa | 


Primeira Moeda 


(H, Н) 


(T, Т) 
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Tabela 4.1 Resultados experimentais (pontos amostrais) correspondentes ao projeto da KP&L 


Prazo de Término (meses) 


Etapa | Etapa 2 Notacáo para o Prazo para Conclusão 
Elaboração do Projeto Construção Resultado Experimental Total do Projeto (meses) 
2 6 (2,6) 8 
2 7 0,7) 9 
2 8 (2,8) 10 
3 6 (3. 6) 9 
3 7 (3,7) 0 
3 8 (3,8) E! 
4 6 (4,6) 10 
4 7 (4, 7) li 
4 8 (4,8) 12 


Figura 4.3 Diagrama em árvore do projeto da KP&L 
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Embora a identificação dos resultados experimentais possa ser útil, precisamos considerar como pode- 
mos atribuir valores probabilísticos aos resultados experimentais antes de fazer uma avaliação da probabi- 


Resultado 
Experimental 
(Pontos Amostrais) 


(2,6) 


0.7) 


(4, 6) 


(4,7) 


6,8) 


Prazo para Conclusáo 
Total do Projeto 


8 meses 


9 meses 


10 meses 


9 meses 


O meses 


| meses 


O meses 


| meses 


2 meses 


lidade de que o projeto venha a ser concluído dentro do prazo desejado de dez meses. 


Combinações. Uma segunda regra útil de contagem nos permite contar o número de resultados experi- 
mentais quando o experimento envolve escolher л objetos de um conjunto (geralmente maior) de N obje- 


tos. Ela se denomina regra de contagem de combinações. 
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REGRA DE CONTAGEM DE COMBINAÇÕES 
O número de combinações de N objetos, tomados n a cada vez, é: 


no [N\ M 
с =(1) nN — n)! aD 


N! = NN — DN — 2) --- X1) 


em que n! = n(n — Dn — 2)--- (2X1) 


е, por definicáo, 0t=1 


A notação ! significa fatorial; por exemplo, 5 fatorial é 5! = (5)(4)(3)(2)(1) = 120. 

Como ilustração da regra de contagem de combinações, considere um procedimento de controle da 
qualidade em que um inspetor seleciona aleatoriamente duas de cinco peças para testar se há defeitos. Em 
um grupo de cinco peças, quantas combinações de duas peças podem ser selecionadas? A regra de conta- 
gem da Equação 4.1 mostra que, com N = 5e n = 2, teremos: 


©) 5 ACD 120 0 


245-2! DOU) 12 


Desse modo, dez resultados são possíveis para o experimento de escolher aleatoriamente duas peças de um 
grupo de cinco. Se rotularmos as cinco pegas como A, B, C, D e E, as dez combinações ou resultados expe- 
rimentais podem ser identificados como AB, AC, AD, AE, BC, BD, BE, CD, CE e DE. 

Como outro exemplo, considere que o sistema lotérico de Ohio utilize a escolha aleatória de seis núme- 
ros inteiros de um grupo de 47 para determinar o ganhador da loteria semanal. A regra de contagem de 
combinações, Equação 4.1, pode ser usada para determinar o número de maneiras pelas quais os seis dife- 
rentes números inteiros podem ser escolhidos de um grupo de 47. 


(7) 47! 47! (47)(46)(45)(44)(43у(42) 10.737.573 


6 6147 — 6)! 6!41! (SANA) 


А regra de contagem de combinações nos diz que mais de 10 milhões de resultados experimentais são pos- 
síveis no sorteio da loteria. Uma pessoa que compra um bilhete dessa loteria tem uma chance em 
10.737.573 de ganhar. 


Permutações. Uma terceira regra de contagem que às vezes é útil é a regra de contagem de permutações. 
Ela permite a uma pessoa calcular o número de resultados experimentais quando л objetos são escolhidos 
de um conjunto de N objetos em que a ordem de escolha é importante. Os mesmos n objetos escolhidos em 
uma ordem diferente são considerados um resultado experimental diferente. 


REGRA DE CONTAGEM DE PERMUTAÇÕES 
O múmero de permutações de N objetos, tomados n a cada vez, é dado por: 


А N! (43) 


М = і = 
Fs Zn (N — пу! 


А regra de contagem de permutações está estreitamente relacionada com a das combinações; entretan- 
to, um experimento resulta em mais permutações do que combinações para o mesmo número de objetos 
porque cada escolha de n objetos pode ser organizada em n! maneiras diferentes. 

Como exemplo, considere novamente o processo de controle da qualidade no qual o inspetor escolhe 
duas de cinco peças para inspecioná-las à procura de defeitos. Quantas permutações podem ser escolhi- 
das? А regra de contagem da Equação 4.2 mostra que com N = 5 en = 2, teremos: 


5! 51. (ADO) _ 120 
(6-2) 3 Q0) 6 


Pi 20 
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Desse modo, são possíveis 20 resultados para o experimento de escolher aleatoriamente duas peças de 
um grupo de cinco quando a ordem de escolha deve ser levada em consideração. Se rotularmos as peças 
como A, B, C, D e E, as 20 permutações serão: AB, BA, AC, CA, AD, DA, AE, EA, BC, CB, BD, DB, 
BE, EB, CD, DC, CE, EC, DE e ED. 


Atribuindo Probabilidades 


Vejamos agora como se pode atribuir probabilidades a resultados experimentais. As trés abordagens usa- 
das com maior fregiiência são o método clássico, o de frequência relativa e o subjetivo. Independentemente 
do método utilizado, dois requisitos básicos para atribuição de probabilidades devem ser satisfeitos: 


REQUISITOS BÁSICOS PARA ATRIBUIÇÃO DE PROBABILIDADES 


1. A probabilidade atribuída a cada um dos resultados experimentais deve situar-se entre 0 e 1, inclu- 
sive. Se admitirmos que E; denota o i-ésimo resultado experimental e que P(E;) é sua probabilida- 
de, entáo esse requisito pode ser escrito na seguinte forma: 


0 < P(E) < 1 para todo i (4.3) 


2. А soma das probabilidades de todos os resultados experimentais deve ser igual a 1,0. Para n resul- 
tados experimentais, esse requisito pode ser escrito na seguinte forma: 


P(E)t P(E) +... + P(E) = 1 (4.4) 


O método clássico de atribuição de probabilidades é apropriado quando todos os resultados experi- 
mentais são igualmente prováveis. Se n resultados experimentais são possíveis, a probabilidade de 1/n é 
atribuída a cada resultado experimental. Quando se usa essa abordagem, os dois requisitos para atribuição 
de probabilidade são automaticamente satisfeitos. 

Como exemplo, considere o experimento de jogar uma moeda; os dois resultados experimentais — cara 
e coroa — são igualmente prováveis. Uma vez que um dos dois resultados igualmente prováveis é cara, a 
probabilidade de se observar cara é 1/2, ou 0,50. De forma similar, a probabilidade de se observar coroa 
também é 1/2, ou 0,50. 

Como outro exemplo, considere o experimento de lançar um dado. Seria razoável concluirmos que os 
seis resultados possíveis são igualmente prováveis e, portanto, a cada resultado é atribuída uma probabili- 
dade de 1/6. Se P(1) denota a probabilidade de 1 aparecer na face do dado voltada para cima, então 
P(1) = 1/6. Similarmente, P(2) = 1/6, P(3) = 1/6, P(4) = 1/6, P(5) = 1/6 e P(6) = 1/6. Observe que 
essas probabilidades satisfazem os dois requisitos básicos das Equações 4.3 e 4.4 porque cada uma das 
probabilidades é maior ou igual a zero e sua soma é 1,0. 

O método de freqüéncia relativa para a atribuição de probabilidades é apropriado quando se tem 
dados disponíveis para estimar a proporção do tempo em que o resultado experimental ocorrerá se o expe- 
rimento for repetido inúmeras vezes. Como exemplo, considere um estudo sobre o tempo de espera no 
setor de raios X de um hospital municipal. Um atendente registrou o número de pacientes à espera de aten- 
dimento às 9h em 20 dias consecutivos e obteve os seguintes resultados: 


Número de Pessoas Número de Dias em que o 


a Espera Resultado Ocorreu 
0 2 
І 5 
2 6 
3 4 
4 3 
Total 20 


Esses dados mostram que em dois dos 20 dias, nenhum (0) paciente estava à espera de atendimento; 
em cinco desses dias, um paciente estava à espera de atendimento e assim por diante. Usando o método 
de fregiiência relativa, atribuiríamos uma probabilidade de 2/20 = 0,10 ao resultado experimental de 
nenhum paciente estar à espera de atendimento, 5/20 = 0,25 ao resultado experimental de um paciente 
estar à espera, 6/20 = 0,30 para dois pacientes, 4/20 = 0,20 para três pacientes e 3/20 = 0,15 para quatro 
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pacientes à espera. A exemplo do que ocorre com o método clássico, usar o método de freqüéncia relati- 
va satisfaz automaticamente os dois requisitos básicos das Equações 4.3 e 4.4. 

O método subjetivo de atribuição de probabilidades é o mais apropriado quando não se pode presu- 
mir realisticamente que os resultados experimentais são igualmente prováveis e quando poucos dados rele- 
vantes estão disponíveis. Quando o método subjetivo é usado para atribuir probabilidades aos resultados 
experimentais, podemos usar qualquer informação disponível, como nossa experiência ou intuição. Depois 
de considerarmos todas as informações disponíveis, especificamos um valor probabilístico que expresse 
nosso grau de confiança (em uma escala de O a 1) de que o resultado experimental ocorrerá. Quando se 
usa o método subjetivo, pode-se esperar que diferentes pessoas atribuam diferentes probabilidades ao 
mesmo resultado experimental. 

O método subjetivo exige que se tenha um cuidado extra para assegurar que os dois requisitos básicos 
das Equações 4.3 e 4.4 sejam satisfeitos. Independentemente do grau de confiança de uma pessoa, o valor 
probabilístico atribuído a cada resultado experimental deve situar-se entre O e 1, inclusive, e a soma de 
todas as probabilidades para os resultados experimentais deve ser igual a 1,0. 

Considere o caso em que Tom e Judy Elsbernd fizeram uma oferta para comprar uma casa. São dois 
os resultados possíveis: 


E, = sua oferta é aceita 
E, = sua oferta é rejeitada 


Judy acredita que a probabilidade de sua oferta ser aceita é 0,8; assim, Judy estabeleceria que P(E,) = 
0,8 e P(E5) = 0,2. Tom, entretanto, acredita que a probabilidade de sua oferta ser aceita 6 0,6; portanto, 
Tom estabeleceria que P(E,) = 0,6 e P(E;) = 0,4. Note que a estimativa de probabilidade de Tom para E; 
reflete um pessimismo maior quanto à possibilidade de que sua oferta seja aceita. 

Tanto Tom como Judy atribuíram probabilidades que satisfazem os dois requisitos básicos. O fato de 
suas estimativas de probabilidade serem diferentes enfatiza a natureza pessoal do método subjetivo. 

Mesmo em situações de negócios em que a abordagem clássica ou a de freqüéncia relativa podem ser 
aplicadas, os gerentes podem querer produzir estimativas de probabilidade subjetivas. Nesses casos, as 
melhores estimativas de probabilidade freqüentemente são obtidas combinando-se as estimativas obtidas 
da abordagem clássica ou de freqüéncia relativa com as estimativas de probabilidade subjetivas. 


Probabilidades do Projeto da KP&L 


Para realizarmos uma análise adicional do projeto da KP&L precisamos desenvolver probabilidades para 
cada um dos nove resultados experimentais relacionados na Tabela 4,1, Com base na experiência e na 
capacidade de julgamento, a administração concluiu que os resultados experimentais não eram igualmen- 
te prováveis. Portanto, o método clássico de atribuição de probabilidades não poderia ser usado. A admi- 
nistração decidiu então realizar um estudo dos prazos de conclusão de projetos similares levados a efeito 
pela KP&L ao longo dos três últimos anos. Os resultados de um estudo de 40 projetos similares estão resu- 
midos na Tabela 4.2. : 

Depois de rever os resultados do estudo, a administração decidiu empregar o método de freqüéncia 
relativa de atribuição de probabilidades. A administração poderia ter produzido estimativas de probabili- 
dade subjetivas, mas achou que o projeto atual era muito similar aos 40 projetos anteriores. Desse modo, 
o método de freqüéncia relativa foi considerado o melhor. 

Ao usar os dados da Tabela 4.2 para calcular as probabilidades, observamos que o resultado (2, 6) — ou 
seja, a etapa 1 concluída em dois meses e a etapa 2 concluída em seis meses — ocorria seis vezes nos 40 
projetos. Podemos usar o método de freqüéncia relativa para atribuir uma probabilidade de 6/40 = 0,15 а 
esse resultado. De forma similar, o resultado (2, 7) também ocorreu em seis dos 40 projetos. Produzindo 
uma probabilidade de 6/40 = 0,15. Prosseguindo dessa maneira, obtemos as atribuições de probabilidade 
para os pontos amostrais do projeto da KP&L mostrados na Tabela 4.3. Note que P(2, 6) representa a pro- 
babilidade do ponto amostral (2, 6), P(2, 7) representa a probabilidade do ponto amostral (2, 7) e assim 
por diante. 
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Tabela 4.2 Resultados do estudo relativo ao prazo de término de 40 projetos da KP&L 


Prazo de Término (meses) Número de Projetos 
Etapa | Anteriores que 
Elaboração Etapa 2 Tiveram Estes Prazos 
do Projeto Construção Ponto Amostral de Término 
2 6 (2,6) 6 
2 7 (2.7) 6 
2 8 (2,8) 2 
3 6 (3,6) 4 
3 7 (3, 7) 8 
3 8 (3. 8) 2 
© 4 6 (4, 6) 2 
4 7 (4,7) 4 
4 8 (4,8) 6 
Total 40 


Tabela 4.3 Atribuindo probabilidade para o projeto da KP&L com base no método da frequência relativa 


Prazo de Término Probabilidade do 

Ponto Amostral do Projeto Ponto Amostral 
(2, 6) 8 meses Р(2, 6) 5 6/405 0,15 
(2,7) 9 meses P(2, 7) 56/405 0,15 
(2,8) 10 meses P(2, 8) 5 2/40 5 0,05 
(3, 6) 9 meses P(3,6)5 4/405 0,10 
(3,7) 10 meses P(3, 7) 5 8/405 0,20 
(3, 8) {1 meses P(3, 8) 5 2/405 0,05 
(4,6) 10 meses P(4, 6) 5 2/40 5. 0,05 
(4,7) |I meses Р(4, 7) 5 4/40 5 0,10 
(4, 8) 12 meses Р(4, 8) 5 6/40 5 0,15 
Total 1,00 


NOTAS E COMENTARIOS 


1. Em estatística, a noção de experimento difere consideravelmente da noção de experimento nas cién- 
cias físicas. Nas ciências físicas, os pesquisadores geralmente realizam o experimento em um labora- 
tório ou em um ambiente controlado a fim de conhecerem a causa e o efeito. Em experimentos estatís- 
ticos, a probabilidade determina os resultados. Não obstante o experimento ser repetido da mesma 
maneira, um resultado completamente diferente pode ocorrer. Em razão dessa influência da probabili- 
dade sobre o resultado, os experimentos de estatística às vezes são chamados experimentos aleatórios. 

2. Quando extraímos uma amostra aleatória, sem substituição, de uma população de tamanho N, usamos 
a regra de contagem de combinações para encontrar o número de diferentes amostras de tamanho n que 
podem ser selecionadas. 


Exercícios 


Métodos 


1. Umexperimento tem três etapas com três resultados possíveis para a primeira etapa, dois resultados pos- 
síveis para a segunda etapa e quatro resultados possíveis para a terceira etapa. Quantos resultados expe- 
rimentais existem para o experimento como um todo? 


AUTOTESTE 


2. De quantas maneiras três itens podem ser selecionados de um grupo de seis itens? Use as letras A, B, 
C, De E para identificar os itens e relacione cada uma das diferentes combinações dos três itens. 


3. Quantas permutações de três itens podem ser selecionadas de um grupo de seis? Use as letras A, B, 
C, D e E para identificar os itens e relacione cada uma das permutações dos itens B, D e Е. 
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Considere o experimento de lançar uma moeda três vezes. 

a. Desenvolva um diagrama em árvore para o experimento. 

b. Relacione os resultados experimentais. 

c. Qual é a probabilidade relativa a cada resultado experimental? 

Suponha que um experimento tenha cinco resultados igualmente prováveis: Ej, E», Ез, E4, Es. Atribua 
probabilidades a cada resultado e demonstre que os requisitos indicados nas Equações 4.3 e 4.4 foram 
satisfeitos. Qual método você usou? 


Um experimento com três resultados foi repetido 50 vezes е soube-se que E, ocorria 20 vezes; E,, 13 
vezes; e Ез, 17 vezes. Atribua probabilidades aos resultados. Qual método você usou? 

Um tomador de decisões atribuiu subjetivamente as seguintes probabilidades aos quatro resultados 
de um experimento: Р(Е,) = 0,10, P(E;) = 0,15, P(E;) = 0,40 e Р(Е,) = 0,20. Essas atribuições de 
probabilidade são válidas? Explique. 


Aplicações 


8. 


10. 


11, 


Na cidade de Milford, os requerimentos para alteração do zoneamento passam por duas etapas: uma 
revisão pela comissão de planejamento e uma decisão da Câmara Municipal. Na etapa 1, a comissão de 
planejamento revisa o requerimento de alteração do zoneamento e apresenta uma recomendação posi- 
tiva ou negativa correspondente. Na etapa 2, a Câmara Municipal revisa a recomendação da comissão 
de planejamento e então realiza uma votação para aprovar ou desaprovar a alteração do zoneamento, 
Considere o processo de requerimento um experimento. 


a. Quantos pontos amostrais há para esse experimento? Relacione-os. 
b. Construa um diagrama em árvore para o experimento. 


A amostragem aleatória simples usa uma amostra de tamanho п de uma população de tamanho N para 
obter dados que podem ser usados para se fazer inferências a respeito das características de uma 
população. Suponha que de uma população de 50 contas bancárias queiramos extrair uma amostra 
aleatória de quatro contas a fim de conhecermos a população. Quantas amostras aleatórias diferentes 
de quatro contas são possíveis? 


O capital para investimento (venture capital) pode oferecer um grande impulso aos fundos disponíveis 
para as empresas. De acordo com a Venture Economics (Investor's Business, 28 de abril de 2000), dos 
2.374 desembolsos de capital para investimento, 1.434 foram para empresas da Califórnia, 390 para 
empresas de Massachussetts, 217 para empresas de Nova York e 112 para empresas do Colorado. Vinte 
e dois por cento das empresas que recebem fundos se encontravam nas primeiras etapas de desenvolvi- 
mento e 55% das empresas, na fase de expansão. Suponha que você queira escolher aleatoriamente uma 
dessas empresas para saber como os fundos de capital para investimento são usados. 


a. Qual é a probabilidade de a empresa escolhida ser da Califórnia? 

b. Qual é a probabilidade de a empresa escolhida não ser de nenhum dos quatro estados mencionados? 

c. Qual é a probabilidade de a empresa não estar nas primeiras etapas de desenvolvimento? 

d. Supondo que as empresas que se encontravam nas primeiras etapas de desenvolvimento estavam 
uniformemente distribuídas pelo território nacional, quantas empresas de Massachussetts que rece- 
bem fundos de capital para investimento estavam nas primeiras etapas de desenvolvimento? 

e. À quantia total de fundos investidos foi de US$ 32,4 bilhões. Estime o valor que foi destinado ao 
Colorado. 

A National Highway Traffic Safety Administration (NHTSA) realizou uma pesquisa para saber como 

os motoristas norte-americanos usam os cintos de segurança (Associated Press, 25 de agosto de 

2003). Dados de amostra coerentes com a pesquisa realizada pela NHTSA são apresentados a seguir: 


O Motorista Usa o Cinto de Segurança? 


Região Sim Não 
Nordeste 148 52 
Meio-Oeste 162 54 
Sul 296 74 
Oeste 252 48 


Total 858 228 
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a. Em relação aos Estados Unidos, qual é a probabilidade de um motorista usar o cinto de segurança? 

b. A probabilidade de uso do cinto de segurança por um motorista norte-americano foi de 0,75. O 
diretor da NHTSA, Dr. Jeffrey Runge, esperava uma probabilidade de 0,78 para 2003. Ele teria 
ficado satisfeito com os resultados da pesquisa de 2003? 

c. Qual é a probabilidade de uso do cinto de segurança de acordo com a região do país? Qual região 
apresenta o maior uso do cinto de segurança? | 

4. Qual proporção dos motoristas integrantes da amostra vieram de cada uma das regiões do 
país? Qual região teve o maior número de motoristas selecionados? Qual região teve o segundo 
maior número de motoristas selecionados? 

e. Supondo que o número total de motoristas de cada região seja o mesmo, você vê alguma razão pela 
qual a estimativa probabilística do item (a) poderia ser demasiadamente elevada? Explique. 


12. A loteria Powerball é jogada duas vezes por semana em 23 estados, nas Ilhas Virgens e no Distrito de 
Colúmbia. Para jogar na Powerball o participante deve comprar um bilhete que custa US$ 1 e então 
escolher cinco números dos dígitos 1 a 53 e um número Powerball dos dígitos 1 a 42, Para determi- 
nar os números dados em cada jogo, os diretores da loteria extraem cinco bolas brancas de um globo 
com 53 bolas brancas, e uma bola vermelha de um globo com 42 bolas vermelhas. Para ganhar o prê- 
mio, os números do bilhete do participante devem coincidir com os números contidos nas cinco bolas 
brancas, em qualquer ordem, bem como o número Powerball. Em agosto de 2001, quatro ganhadores 
repartiram um prêmio de US$ 295 milhões ao acertarem os números 8 — 17 — 22 — 42 — 47, mais o 
número Powerball 21. Além do prêmio principal, há uma série de outros prêmios que são concedidos 
a cada vez que há sorteios. Por exemplo, um prêmio de US$ 100 mil é pago se os cinco números do 
participante coincidirem com os cinco números contidos nas cinco bolas brancas (www.power- 
ball.com, 25 de março de 2003). 


a. Calcule o пйтего de maneiras pelas quais os cinco primeiros пйтегоз podem ser selecionados. 

b. Qual é a probabilidade de se ganhar um prêmio de US$ 100 mil ao coincidir os números contidos 
nas cinco bolas brancas? 

c. Qual é a probabilidade de se ganhar o prémio Powerball? 


13. Uma empresa que produz creme dental estuda cinco diferentes desenhos (designs) de embalagem. 
Supondo que um desenho tenha exatamente a mesma probabilidade de ser escolhido pelo cliente que 
outro qualquer, qual probabilidade de escolha vocé atribuiria a cada um dos desenhos de embalagem? 
Em um experimento real, 100 consumidores foram solicitados a pegar o desenho que preferiam. 
Foram obtidos os seguintes dados. Os dados confirmam a crenga de que um desenho tem a mesma 
probabilidade de ser escolhido que outro qualquer? Explique. 


Nümero de Vezes em 


Desenho que Foi Preferido 
| 5 
2 15 
3 30 
4 40 
5 10 


4.2 EVENTOS E SUAS PROBABILIDADES 


Na introdução deste capítulo, utilizamos o termo evento de modo muito similar ao usado na linguagem do 
cotidiano. Depois, na Seção 4.1, introduzimos o conceito de experimento e seus resultados experimentais 
ou pontos amostrais correspondentes. Pontos amostrais e eventos constituem a base para o estudo das pro- 
babilidades. Em conseqüência, precisamos introduzir agora a definição formal de evento, uma vez que ele 
se relaciona aos pontos amostrais. Isso nos dará a base para determinarmos a probabilidade de um evento. 


EVENTO 
Um evento é um conjunto de pontos amostrais. 


Como exemplo, retornemos ao projeto da KP&L e suponhamos que o gerente de projetos esteja inte- 
ressado na eventualidade de o projeto inteiro ser concluído em dez meses ou menos. Consultando a Tabela 
4.3, notamos que seis pontos amostrais — (2, 6), (2, 7), (2, 8), (3, 6), (3, 7) e (4, 6) — apresentam um prazo 


139 


140 


Estatística Aplicada à Administracáo e Economia 


de término do projeto de dez meses ou menos. Se considerarmos que C denota a eventualidade de o pro- 
jeto ser concluído em dez meses ou menos, escrevemos: 


€ = (0, 6), (2,7), (2, 8), (3, 6), (3, 7), (4, 9] 


Considera-se que о evento C ocorra se, desses seis pontos amostrais, qualquer um aparecer como resul- 
tado experimental. . 
Dentre outros eventos que poderiam interessar à geréncia da KP&L incluem-se os seguintes: 


L — a eventualidade de o projeto ser concluído em menos de dez meses 
M = a eventualidade de o projeto ser concluído em mais de dez meses 


Usando a informação da Tabela 4.3, notamos que esses eventos consistem nos seguintes pontos amostrais: 


L = {(2, б), (2,7), G, 6)} 
M = (G, 8), (4, 7), (4, 8) 


Uma série de eventos adicionais pode ser definida para o projeto da KP&L, mas, em cada caso, o even- 
to deve ser identificado como um conjunto de pontos amostrais do experimento. 

Dadas as probabilidades dos pontos amostrais apresentados na Tabela 4.3, podemos usar a seguinte defi- 
nição para calcular a probabilidade de qualquer evento que a gerência da KP&L possa querer considerar: 


PROBABILIDADE DE UM EVENTO 
A probabilidade de um evento é igual à soma das probabilidades dos pontos amostrais do evento. 


Usando essa definição, calculamos a probabilidade de um evento em particular somando as probabili- 
dades dos pontos amostrais (resultados experimentais) que compõem o evento. Agora podemos calcular a 
probabilidade de que o projeto demandará dez meses ou menos para ser concluído. Uma vez que esse 
evento é dado por C = ((2, 6), (2, 7), (2, 8), (3, 6), (3, 7), (4, 6)), a probabilidade do evento C, denotada 
por P(C), será dada por 


P(C) = Р(2,6) + PQ, 7) + P(2, 8) + P(3, 6) + P, 7) + P(4, 6) 
Referindo-se às probabilidades dos pontos amostrais da Tabela 4.3; temos, portanto, 
P(C) = 0,15 + 0,15 + 0,05 + 0,10 + 0,20 + 0,05 = 0,70 


Similarmente, desde que a eventualidade de o projeto ser concluído em menos de dez meses seja dada por 
L = {(2, 6), (2, 7), (3, 6)}, a probabilidade desse evento é dada por 


P(L) = PQ,6) + PQ,7) + PG, 6) 
7 0,15 + 0,15 + 0,10 = 0,40 


Finalmente, para a eventualidade de o projeto ser concluído em mais de dez meses, temos M = {(3, 8), 
(4, 7), (4, 8)) e, assim, ` 


P(M) = P(3,8) + P(4,7) + P(4,8) 
= 0,05 + 0,10 + 0,15 = 0,30 


Usando esses resultados probabilísticos, agora podemos dizer à gerência da KP&L que há uma proba- 
bilidade de 0,70 de o projeto ser concluído em dez meses ou menos, uma probabilidade 0,40 de o projeto 
ser concluído em menos de dez meses e uma probabilidade de 0,30 de o projeto ser concluído em mais de 
dez meses. Esse procedimento para o cálculo de probabilidades pode ser repetido para qualquer evento que 
interesse à gerência da KP&L. 

Sempre que podemos identificar todos os pontos amostrais de um experimento e atribuir probabilida- 
des a cada um, temos condições de calcular a probabilidade de determinado evento usando a definição. 
Entretanto, em muitos experimentos o grande número de pontos amostrais torna a identificação dos pon- 
tos amostrais, bem como a determinação de suas respectivas probabilidades, extremamente complicadas, 
quando não impossíveis. Nas seções restantes deste capítulo apresentaremos algumas relações probabilís- 
ticas básicas que podem ser usadas no cálculo da probabilidade de um evento sem a necessidade de se 
conhecer todas as probabilidades dos pontos amostrais. 
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NOTAS E COMENTÁRIOS 


1. O espaço amostral, 5, é um evento. Uma vez que ele contém todos os resultados experimentais, tem a 
probabilidade 1; ou seja, P(S) = 1. ` 

2. Quando se usa o método clássico para atribuir probabilidades, o pressuposto é que os resultados expe- 
rimentais sejam igualmente prováveis. Nesses casos, a probabilidade de um evento pode ser calculada 
contando-se o número de resultados experimentais do evento e dividindo-se o resultado pelo número 
total de resultados experimentais. 

Exercícios 

Métodos 

14. Um experimento tem quatro resultados igualmente prováveis: E}, Е, E3 e Es. 

a. Qual é a probabilidade de E, ocorrer? 

b. Qual é a probabilidade de dois resultados quaisquer ocorrerem (por exemplo, E, ou Ез)? 

c. Qual é a probabilidade de três resultados quaisquer ocorrerem (por exemplo, E}, E, ou E)? 

15. Considere o experimento de escolher uma carta de um baralho de 52 cartas. Cada carta corresponde 

a um ponto amostral com uma probabilidade de 1/52. 

a. Relacione os pontos amostrais relativos à eventualidade de um ás ser escolhido, 

b. Relacione os pontos amostrais relativos à eventualidade de uma carta com naipe de paus ser escolhida. 

c. Relacione os pontos amostrais relativos à eventualidade de uma das cartas da corte (valete, rainha 
ou rei) ser escolhida. 

d. Encontre as probabilidades associadas a cada um dos eventos das questões (a), (b) e (c). 

16. Considere o evento de lançar um par de dados. Suponha que estejamos interessados na soma dos valo- 
res de face mostrados nos dados. 

a. Quantos pontos amostrais são possíveis? (Dica: Use a regra de contagem de experimentos em múl- 
tiplas etapas.) 

b. Relacione os pontos amostrais. 

c. Qual é a probabilidade de se obter o valor 7? 

d. Qual é a probabilidade de se obter o valor 9 ou um valor maior? 

e. Uma vez que cada lançamento tem seis valores pares possíveis (2, 4, 6, 8, 10 e 12) e somente cinco 
valores ímpares possíveis (3, 5, 7, 9 e 11) os dados exibirão valores pares com mais fregiiência do 
que valores ímpares. Você concorda com essa afirmação? Explique. 

f. Qual método você usou para atribuir as probabilidades solicitadas? 

Aplicações 
17. Consulte os pontos amostrais e as probabilidades dos pontos amostrais correspondentes à KP&L indi- 
cados nas Tabelas 4.2 e 4.3, respectivamente. 

a. A fase de projeto (etapa 1) estourará o orcamento se demandar quatro meses para ser concluída. 
Relacione os pontos amostrais relativos à eventualidade de a fase de projeto estourar o orçamento. 

b. Qual é a probabilidade de a fase de projeto estourar o orçamento? 

c. À fase de construção (etapa 2) estourará o orçamento se demandar oito meses para ser concluída, 
Relacione os pontos amostrais relativos à eventualidade de a etapa de construção estourar o orçamento. 

d. Qual é a probabilidade de a fase de construção estourar o orçamento? 

e. Qual é a probabilidade de ambas as etapas estourarem o orçamento? 

18. Suponha que o gerente de um grande complexo de apartamentos forneça as seguintes estimativas de 


probabilidade subjetivas acerca do número de apartamentos vagos no próximo mês: 


Apartamentos Vazios Probabilidade 


0,05 
0,15 
0,35 
025 
0,10 
0,10 


л һом — о 
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19. 


Fornega a probabilidade de cada um dos seguintes eventos: 


a. Não há apartamentos vazios. 

b. Pelo menos quatro apártamentos vazios. 

c. Dois ou menos apartamentos vazios. 

A National Sporting Goods Association realizou uma pesquisa de pessoas com idades a partir de 
7 anos sobre a participação em atividades esportivas (Statistical Abstract of the United States, 2002). 
Os dados registrados sobre a população dessa faixa etária indicavam 248,5 milhões de pessoas, sendo 
120,9 milhões do sexo masculino e 127,6 milhões do sexo feminino. O número de participantes das 
cinco principais atividades esportivas é apresentado a seguir: 


Atividade Participantes (milhões) 
Masculino Feminino 
Andar de bicicleta 22,2 21,0 
Acampar 25,6 24,3 
Fazer caminhadas 28,7 57,7 
Exercitar-se com aparelhos 20,4 244 
Nadar 264 . 344 


20. 


a. Em relação a pessoas do sexo feminino selecionadas aleatoriamente, estime a probabilidade de par- 
ticipação em cada uma das atividades esportivas. 

b. Em relação a pessoas do sexo masculino selecionadas aleatoriamente, estime a probabilidade de 
participação em cada uma das atividades esportivas. 

c. Em relação a uma pessoá selecionada aleatoriamente, estime a probabilidade de ela participar em 
exercícios de caminhada. 

d. Suponha que você acabe de ver passar alguém praticando caminhada. Qual seria a probabilidade 
de essa pessoa ser uma mulher? Qual seria a probabilidade de essa pessoa ser um homem? 


A revista Fortune publica uma edição anual que contém informações sobre as empresas do grupo 
Fortune 500. Os dados a seguir apresentam os seis estados que contam com o maior número de 
empresas do grupo Fortune 500, bem como o número de empresas cuja sede se encontra nesses esta- 
dos (Fortune, 17 de abril de 2000). 


Estado Número de Empresas 
Nova York 56 
Califórnia 53 
Texas 43 
Illinois 37 
Ohio 28 
Pennsylvania 28 


21. 


Suponha que uma empresa do grupo Fortune 500 seja escolhida para responder a um questionário de 
delineamento (follow-up). Quais são as probabilidades dos seguintes eventos? 

a. Seja N a eventualidade de a empresa ter sede em Nova York. Encontre P(N). 

b. Seja T a eventualidade de a empresa ter sede no Texas. Encontre P(T). 

c. Seja B a eventualidade de a empresa ter sede em um desses seis estados. Encontre P(B). 

A população norte-americana (Estados Unidos), distribuída por faixa etária, é a seguinte (The World 
Almanac 2004). Os dados estão expressos em milhões de pessoas. 


Idade  ' Número 
19 anos ou menos 80,5 
20a24 ' 190 
25a34 39,9 
35a 44 45,2 
45 а 54 37,7 
55a 64 24,3 


65 anos ou mais 35,0 
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Suponha que uma pessoa seja escolhida aleatoriamente dessa população. 
a. Qual é a probabilidade de a pessoa ter de 20 a 24 anos? 


b. Qual é a probabilidade de a pessoa ter de 20 a 34 anos? 
c. Qual é a probabilidade de a pessoa ter acima de 45 anos? 


4.3 ALGUMAS RELAÇÕES BÁSICAS DE PROBABILIDADE 


Complemento de um Evento 


Dado um evento A, o complemento de A é definido como o evento que consiste em todos os pontos amos- 
trais que não estão em A. O complemento de А é denotado por Ас. A Figura 4.4 representa um diagrama 
conhecido como diagrama de Venn, que ilustra o conceito de complemento. A área retangular representa 
o espaço amostral do experimento e, como tal, contém todos os pontos amostrais possíveis. O círculo repre- 
senta o evento А e contém somente os pontos amostrais que pertencem a A. A região sombreada do retân- 
gulo contém todos os pontos amostrais que não estão no evento A e, por definição, é o complemento de A. 

Em qualquer aplicação de probabilidade, ou o evento А ou o seu complemento Ас devem ocorrer. 
Portanto, temos 


P(A) + P(A) = 1 


Figura 4.4 A área sombreada é o complemento do evento А 


Espaço amostral $ 


Evento A 


Complemento 
do Evento À 


Resolvendo P(A), obtemos o resultado seguinte. 


COMO CALCULAR A PROBABILIDADE USANDO O COMPLEMENTO 
P(A) = 1-P(AS) (4.5) 


A Equação 4.5 mostra que a probabilidade de um evento A pode ser facilmente calculada se a proba- 
bilidade de seu complemento, P(Aº), for conhecida. 

Como exemplo, considere o caso de um gerente de vendas que, após revisar os relatórios, afirma que 80% 
dos contatos com novos clientes não resultaram em vendas. Se considerarmos A a eventualidade de ocorrer 
uma venda е Ас a eventualidade de não ocorrer nenhuma venda, o gerente está afirmando que P(A«) = 0,80. 
Usando a Equação 4.5, vemos que 


P(A) = 1 Р(Ас) = 1 – 0,80 = 0,20 


Podemos concluir que o contato com novos clientes tem 0,20 de probabilidade de resultar em uma venda. 

Em outro exemplo, um agente de compras afirma que probabilidade de o fornecedor enviar uma remes- 
sa isenta de pecas defeituosas é 0,90. Usando o complemento, podemos concluir que probabilidade de a 
remessa não conter peças defeituosas é 1 — 0,90 = 0,10. 


Lei da Adição 


A lei da adição é útil quando estamos interessados em saber qual é a probabilidade de pelo menos um de dois 
eventos ocorrer. Ou seja, com os eventos А e B estamos interessados em saber qual é a probabilidade de ocor- 
rência do evento A ou do evento B, ou de ambos. 
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Antes de apresentarmos a lei da adição, precisamos discutir dois conceitos relacionados à combinação 
de eventos: a união de eventos e a interseção de eventos. Dados dois eventos A e B, a união de A e B é 
definida da seguinte maneira: 


UNIÃO DE DOIS EVENTOS 


A união de A e B é o evento que contém todos os pontos amostrais que pertencem a À ou B, ou a ambos. 
A união é denotada por À U B. 


O diagrama de Venn da Figura 4.5 retrata a união dos eventos A e B. Observe que os dois círculos con- 
têm todos os pontos amostrais do evento A, bem como os pontos amostrais do evento B. 


Figura 4.5 À área sombreada é a união dos eventos À e B 


Espaço Amostral 5 


Evento A Evento B 


O fato de os círculos se sobreporem indica que alguns pontos amostrais estão contidos tanto em A 
como em B. 
A definição da interseção de A e B é a seguinte: 


INTERSEÇÃO DE DOIS EVENTOS 


Dados dois eventos A e B, a interseção de A e B é o evento que contém os pontos amostrais que per- 
tencem tanto a А como a B. A interseção é denotada por А N B. 


O diagrama de Venn que retrata a interseção dos eventos A e B é mostrado na Figura 4.6. A área em 
que os dois círculos se sobrepõem é a interseção; ela contém os pontos amostrais que estão tanto em A 
como em В. 

Vamos prosseguir agora com a discussão da lei da adição. A lei da adição constitui uma maneira de 
calcular a probabilidade de o evento A ou o evento B, ou ambos, ocorrerem. Em outras palavras, a lei 
da adição é usada para calcular a probabilidade da união de dois eventos. A lei da adição é escrita da 
seguinte maneira: 


LEI DA ADIÇÃO 


| P(A N B) = P(A) + P(B) - P(A П В) (4.6) 


Figura 4.6 A área sombreada é a interseção dos eventos A e B 


Espaço Amostral S 


Evento А Evento B 
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Para entender a lei da adição intuitivamente, observe que os dois primeiros termos da lei da adição, 
P(A) + P(B), contabilizam todos os pontos amostrais de А U B. Entretanto, desde que os pontos amos- 
trais na interseção A N B estão tanto em А como em B, quando calculamos P(A) + P(B), estamos efetiva- 
mente contando cada um dos pontos amostrais em A N B duas vezes. Corrigimos essa contagem em dobro 
ao subtrair P(A (1 B). 

Como exemplo da aplicação da lei da adição, consideremos o caso de uma pequena planta de monta- 
gem com 50 empregados. Espera-se que cada funcionário conclua suas obrigações no prazo e que as 
desempenhe de tal maneira que o produto montado seja aprovado na inspeção final. Ocasionalmente, 
algum funcionário deixa de cumprir os padrões de desempenho, concluindo o trabalho tardiamente ou 
montando produtos com defeito. Ao final de um período de avaliação do desempenho, o gerente de pro- 
dução descobriu que cinco dos 50 funcionários conclufam o trabalho atrasados e seis dos 50 montavam um 
produto com defeito e dois dos 50 funcionários tanto concluíam o trabalho tardiamente como montando 
produtos com defeitos. 

Admitamos que 


L = a eventualidade de o trabalho ser concluído atrasado 
D = a eventualidade de o produto montado apresentar defeito 


A informação sobre a freqüéncia relativa nos leva às seguintes probabilidades. 


5 
РФ) = => =0,10 
D = зо 


6 
=— = 0,12 
P(D) 50 


2 
PLN D) = = 004 


Depois de revisar os dados de desempenho, o gerente de produção decidiu atribuir avaliações de 
desempenho a qualquer empregado cujo trabalho fosse concluído atrasado ou apresentando defeitos; desse 
modo, o evento de interesse é L U D. Qual é a probabilidade de o gerente de produção atribuir uma ava- 
liação ruim a um funcionário? 

Observe que a questão probabilística se refere à união de dois eventos. Especificamente, queremos 
conhecer 


PLUD)=P(L) + P(D) - PLND) 


Conhecendo os valores das três probabilidades expressas no segundo membro dessa equação, podemos 
escrever 


PLUD)=0,10+0,12-0,04=0,18 


Esse cálculo nos informa que há 0,18 de probabilidade de que um funcionário escolhido aleatoria- 
mente receba uma classificação de desempenho ruim. 

Como outro exemplo da lei da adição, considere um estudo realizado recentemente pelo gerente de pes- 
soal de uma grande empresa de software de computador. O estudo mostrou que 30% dos funcionários que 
saíram da firma no intervalo de dois anos o fizeram porque estavam insatisfeitos com seus salários, 20% 
saíram porque estavam insatisfeitos com suas atribuições de trabalho e 12% dos ex-funcionários indica- 
ram insatisfação tanto com o salário como com suas atribuições de trabalho. Qual é a probabilidade de um 
funcionário que sair dentro de dois anos vir a fazê-lo em virtude da insatisfação com o salário, insatisfa- 
ção com a atribuição de trabalho, ou ambos? 

Admitamos que 


S = a eventualidade de o empregado sair em razão do salário 
W = a eventualidade de o empregado sair em decorrência da atribuição de trabalho 
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Temos P(S) = 0,30, PW) = 0,20 e P(S П W) = 0,12. Usando a Equação 4.6, a lei da adição, temos 
P(S U W) = P(S) + PQW) - P(S N W) = 0,30 + 0,20 – 0,12 = 0,38 


Descobrimos que há uma probabilidade de 0,38 de que um funcionário saia da empresa por motivos 
de salário ou de atribuição funcional. 

Antes de concluirmos nossa discussão da lei de adição, vamos considerar um caso especial que se apre- 
senta para eventos mutuamente exclusivos. 


EVENTOS MUTUAMENTE EXCLUSIVOS 


Dois eventos sáo considerados mutuamente exclusivos se eles n&o tiverem nenhum 
ponto amostral em comum. 


Os eventos A e B são mutuamente exclusivos se, quando um evento ocorre, o outro não pode ocorrer. 
Assim, um requisito para A e B serem mutuamente exclusivos é que sua interseção não deve conter nenhum 
ponto amostral, O diagrama de Venn que descreve dois eventos A e B mutuamente exclusivos é apresenta- 
do na Figura 4.7. Nesse caso, P(A N B) = 0 e a lei da adição pode ser escrita da seguinte maneira: 


LEI DA ADIÇÃO PARA EVENTOS MUTUAMENTE EXCLUSIVOS 
P(A U В) = P(A) + Р(В) 


Figura 4.7 Eventos mutuamente exclusivos 


Espaço amostral 5 


Evento À 2 © Evento В 


Exercícios 


Métodos 


22. Suponha que temos um espaço amostral com cinco resultados experimentais igualmente prováveis: 
Ej, Еу, Ёз, Es, Es. Admitamos que 


A = (E, Ej) 
В = (E, E, 
C = (E, E, E, 


а. Encontre P(A), P(B) e P(C). 
b. Encontre P(A U B). A e B são mutuamente exclusivos? 
c. Encontre Ac, C^, P(Ac) e P(Cc). 
d. Encontre A U Все P(A U B»). 
€. Encontre P(B U C). 
23. Suponha que temos um espaço amostral 5 = {E}, Ej, Ej, E4, Es, Ee, Ез), em que E}, Ez, ... E; deno- 
tam os pontos amostrais. Aplicam-se as seguintes atribuições de probabilidade: P(E,) = 0,05, P(E;) 
= 0,20, Р(Ез) = 0,20, P(E4) = 0,25, P(Es) = 0,15, P(E6) = 0,10 e P(E;) = 0,05. Admitamos que 


A = (E, E, Eg} 
В = (E, Es E) 
C = (E, E, E, E) 
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a. Encontre P(A), P(B) e P(C). 

b. Ache A U B e P(A U B). 

c. Encontre A N B e P(A П B). 

d. Os eventos А e C são mutuamente exclusivos? 
e. Encontre Вс e P(B*). 


Aplicacóes 

24. A Clarkson University fez uma pesquisa de seus ex-formandos para conhecer melhor o que eles pen- 
sam a respeito da universidade. Uma parte da pesquisa pedia que os consultados indicassem se a 
experiência que haviam tido na Clarkson ficara aquém das expectativas, se atingira as expectativas ou 
se superara as expectativas. O resultado mostrou que 4% dos consultados nada responderam, 26% 
disseram que suas experiências ficaram aquém das expectativas e 65% dos consultados disseram que 
suas experiências atingiram as expectativas (Clarkson Magazine, verão de 2001). 


a. Se escolhermos um ex-aluno aleatoriamente, qual é a probabilidade de ele afirmar que sua expe- 
riência superou as expectativas? 

b. Se escolhermos um ex-aluno aleatoriamente, qual é a probabilidade de ele afirmar que suas expec- 
tativas foram atingidas ou superadas. : 


25. Dados divulgados sobre os 30 maiores fundos de ações apresentaram a rentabilidade percentual para 
aplicações de um ano e de cinco anos, respectivamente, correspondentes ao período com vencimen- 
to em 31 de março de 2000 (The Wall Street Journal, 10 de abril de 2000). Suponha que considere- 
mos elevada uma rentabilidade superior a 2% para aplicações de um ano e que consideremos também 
elevada uma rentabilidade acima de 44% para aplicações de cinco anos. Metade dos fundos teve ren- 
tabilidade acima de 2% para aplicações de um ano, 12% dos fundos tiveram rentabilidade acima de 
44% para aplicações de cinco anos, e seis dos fundos tanto tiveram rentabilidade acima de 2% para 
aplicações de um ano como rentabilidade acima de 44% para aplicações de cinco anos. 


а. Encontre a probabilidade de um fundo ter uma rentabilidade elevada para aplicações de um ano, a 
probabilidade de um fundo ter uma rentabilidade elevada para aplicações de cinco anos, e a proba- 
bilidade de um fundo ter tanto uma rentabilidade elevada para aplicações de um ano como uma ren- 
tabilidade elevada para aplicações de cinco anos. 

b. Qual é a probabilidade de um fundo ter obtido uma rentabilidade elevada para aplicações de um 
ano, uma rentabilidade elevada para aplicações de cinco anos, ou ambos? 

c. Qual é a probabilidade de um fundo não ter obtido uma rentabilidade elevada tanto para aplicações 
de um ano como para as de cinco anos? 


26. Dados divulgados sobre os 30 maiores fundos de ações e de investimentos diversificados apresentaram 
a rentabilidade percentual para aplicações de um ano e de cinco anos, respectivamente, corresponden- 
tes ao período com vencimento em 31 de março de 2000 (The Wall Street Journal, 10 de abril de 2000). 
Suponha que consideremos elevada uma rentabilidade superior a 50%, para aplicações de um ano e 
que consideremos também elevada uma rentabilidade acima de 300%, para aplicações de cinco anos. 
Nove dos fundos tiveram rentabilidade acima de 50% para aplicações de um ano, sete dos fundos tive- 
ram rentabilidade acima de 300%, para aplicações de cinco anos, e cinco dos fundos tanto tiveram ren- 
tabilidade acima de 50% para aplicações de um ano, como rentabilidade acima de 300% para aplica- 
ções de cinco anos. 


a. Qual é a probabilidade de haver uma rentabilidade elevada para aplicações de um ano, e qual é a 
probabilidade de rentabilidade elevada para aplicações de cinco anos? 

b. Qual é a probabilidade de rentabilidade elevada tanto para aplicações de um ano como para apli- 
cações de cinco anos? 

c. Qual é a probabilidade de não haver rentabilidade elevada para aplicações de um ano nem para apli- 
cações de cinco anos? 


27. Uma pesquisa de opinião realizada na pré-temporada do campeonato de futebol norte-americano da 
NCAA pediu aos consultados para responderem à seguinte pergunta: “A Conferência de Atletismo 
Big Ten ou a Pac-10 terá um time no jogo de decisão do campeonato nacional deste ano, a Rose 
Bowl?” Dos 13.429 consultados, 2.961 disseram que a Big 10 teria, 4.494 disseram que a Pac-10 teria 
e 6.823 disseram que nem a Big Ten nem a Pac-10 teriam um time na Rose Bowl (www.yahoo.com, 
30 de agosto de 2001). 
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а. Qual é a probabilidade de o consultado ter respondido que nem a Big Ten nem a Pac-10 terá um 
time na Rose Bowl? 

b. Qual é a probabilidade de o consultado ter respondido que ou a Big Ten ou a Pac-10 terá um time 
na Rose Bowl? 

c. Encontre a probabilidade de o consultado ter respondido que tanto a Big Ten como a Pac-10 teráo 
um time na Rose Bowl? 


28. Uma pesquisa de assinantes de revista mostrou que 45,8% alugaram um carro nos últimos 12 meses 
por razões comerciais, 54% alugaram um carro durante os últimos 12 meses por razões pessoais e 
30% alugaram um carro nos últimos 12 meses tanto por razões comerciais como por razões pessoais. 


a. Qual é a probabilidade de um assinante ter alugado um carro durante os últimos 12 meses por 
razões comerciais ou pessoais? 

b. Qual é a probabilidade de um assinante não ter alugado um carro durante os últimos 12 meses por 
razões comerciais ou por razões pessoais? 


29. Estudantes que concluem:a fase sênior! do curso colegial com ótimo desempenho candidatam-se aos 
cursos universitários mais seletivos em um número cada vez maior a cada ano. Uma vez que o núme- 
ro de vagas permanece relativamente estável, algumas universidades recusam um número maior dos 
early applicants?. A Universidade da Pensilvânia recebeu 2.851 inscrições de early applicants. Desse 
grupo, admitiu 1.033 estudantes, recusou 854 imediatamente e protelou 964 para o pool de admissões 
normais. A universidade admitiu cerca de 18% dos candidatos do poo! de admissões normais consi- 
derando um tamanho total de classes (número de admissões de early apllicants mais as admissões 
normais) de 2.375 estudantes (USA Today, 24 de janeiro de 2001). Vamos considerar que E, R e D 
representam a eventualidade (eventos) de um estudante que se candidata à early admission ser admi- 
tido, recusado imediatamente ou protelado para o poo! de admissões normais; e que A representa a 
eventualidade (evento) de um estudante ser admitido no conjunto de admissóes normais. 


a. Use os dados para estimar P(E), P(R) e P(D). 

b. Os eventos E e D são mutuamente exclusivos? Encontre P(E N D). 

c. Em relacáo aos 2.375 estudantes admitidos na Universidade da Pensilvánia, qual é a probabilidade 
de um estudante escolhido aleatoriamente ter sido aceito para early admission? 

d. Suponha que um estudante se inscreva na Universidade da Pensilvánia para early admission. Qual 
é a probabilidade de o estudante ser admitido para early admission ou ser aceito para admissáo no 
pool de admissóes normais? 


4.4 PROBABILIDADE CONDICIONAL 


Freqüentemente, a probabilidade de um evento é influenciada pelo fato de um evento relacionado já ter 
ocorrido ou náo. Suponha que temos um evento А com a probabilidade P(A). Se obtivermos uma nova 
informação e soubermos que um evento relacionado, denotado por B, já ocorreu, quereremos tirar provei- 
to dessa informação calculando uma nova probabilidade para o evento A. 

Essa nova probabilidade do evento А denomina-se probabilidade condicional e é escrita como P(A | B). 
Usamos a notação | para indicar que estamos considerando a probabilidade do evento A dada a condição 
de o evento B ter ocorrido. Portanto, a notação P(A | B) é lida da seguinte maneira: “a probabilidade de A, 
dado B." 

Como ilustração da aplicação da probabilidade condicional, considere a situação do status de promo- 
ção de oficiais masculinos e femininos de um grande departamento de polícia metropolitana no leste dos 
Estados Unidos. A força policial consiste em 1.200 oficiais, sendo 960 homens e 240. mulheres. Nos últi- 
mos dois anos, 324 oficiais da força policial receberam promoções. A estrutura específica de promoções 
para oficiais masculinos e femininos é apresentada na Tabela 4.4. 


1 NT: Após seis anos de elementary school, na qual o aluno aprende as matérias básicas, ele segue para o curso secundário, ou high 
school, que consiste na junior high school, com duração de três anos, e depois a senior high school, que oferece o último ano da edu- 
cação colegial. 

2 NT: Um early applicant é definido como o estudante que deseja ingressar na universidade após a conclusão da etapa júnior do curso 
colegial (high school). 
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Depois de rever o registro de promoções, uma comissão de oficiais femininas fez uma acusação formal 
de discriminação baseando-se no fato de que 288 oficiais masculinos receberam promoções e somente 36 
oficiais femininas foram promovidas. A administração da polícia argüiu que o número relativamente baixo 
de promoções para as oficiais femininas se deveu não à discriminação, mas ao fato de relativamente poucas 
mulheres serem integrantes da força policial. Vamos mostrar como a probabilidade condicional poderia ser 
usada para analisar a acusação de discriminação. 

Se admitirmos que 


H = o evento de um oficial ser homem 

M = o evento de um oficial ser mulher 

A = o evento de um oficial ser promovido 

АС = o evento de um oficial não ser promovido 


Dividir os valores de dados da Tabela 4.4 pelo total de 1.200 oficiais nos possibilita sintetizar a infor- 
mação disponível com os seguintes valores probabilísticos: 


P(H NA) = 288/1.200 = 0,24 = probabilidade de um oficial escolhido aleatoriamente ser um 
homem e ser promovido. 

P(H ( Ас) = 672/1.200 = 0,56 = probabilidade de um oficial escolhido aleatoriamente ser um 
homem e não ser promovido. 

P(M NA) = 36/1.200 = 0,03 = probabilidade de um oficial escolhido aleatoriamente ser uma 
mulher e ser promovida. 

P(M П Ас) = 204/1.200 = 0,17 = probabilidade de um oficial escolhido aleatoriamente ser uma 
mulher e não ser promovida. 


Uma vez que cada um desses valores dá a probabilidade da interseção de dois eventos, as probabilida- 
des são chamadas probabilidades associadas. A Tabela 4.5, que apresenta um resumo das informações 
probabilísticas referentes à situação das promoções dos oficiais do departamento de polícia, é denomina- 
da tabela de probabilidade associada. 

Os valores indicados nas margens da tabela de probabilidade associada fornecem as probabilidades de 
cada evento separadamente. Ou seja, P(H) = 0,80, P(M) = 0,20, P(A) = 0,27 e Р(Ас) = 0,73. Essas pro- 
babilidades se denominam probabilidades marginais em virtude de sua localização nas margens da tabe- 
la de probabilidade associada. 


Tabela 4.4 Status de promoção dos oficiais de polícia nos dois últimos anos 


Homens Mulheres Total 
Promovidos 288 36 324 
Não promovidos 672 204 876 
Total 960 240 1.200 


Tabela 4.5 Tabela de probabilidade associada das promoções 


As probabilidades 
associadas aparecem 


no corpo da tabela. Homens (H) Mulheres (M) Total 
Promovidos (A) 0,24 0,03 0,27 
Não promovidos (AS) A 0,17 0,73 
Total 0,80 0,20 1,00 


As probabilidades 
marginais aparecem 
nas margens da tabela. 
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Notamos que as probabilidades associadas sáo encontradas somando-se as probabilidades associadas 
que se encontram na linha ou coluna correspondentes da tabela de probabilidade associada. Por exemplo, 
a probabilidade marginal de alguém ser promovido é P(A) = P(H NA) + P(M ПА) = 0,24 + 0,03= 0,27. 
Das probabilidades marginais, vemos que 80% da força policial são homens, 20% da força são mulheres, 
27% de todos os oficiais receberam promoções e 73% não foram promovidos. 

Vamos iniciar a análise da probabilidade condicional calculando a probabilidade de um oficial ser pro- 
movido dado que o oficial seja um homem, Na notação de probabilidade condicional, tentamos determi- 
nar P(A | Н). Para calcular P(A | Н), primeiramente precisamos entender que essa notação significa simples- 
mente que estamos considerando a probabilidade do evento A (promoção), visto que sabemos da existência da 
condição designada como evento H (о oficial ser um homem). Assim, P(A | Н) nos diz que agora estamos inte- 
ressados somente no status de promoção dos 960 oficiais do sexo masculino. Uma vez que 288 dos 960 ofi- 
ciais do sexo masculino receberam promoções, a probabilidade de haver uma promoção dado que o oficial 
seja um homem é 288/960 = = 0,30. Em outras palavras, dado que um oficial seja um homem, ele teve 30% de 
chance de receber uma promoção nó decorrer dos últimos dois anos. 

Esse procedimento foi fácil de aplicar porque os valores apresentados na Tabela 4.4 mostram o núme- 
ro de oficiais de cada categoria. Queremos demonstrar agora como se pode calcular diretamente probabi- 
lidades condicionais como P(A | H), a partir das probabilidades de eventos, em vez dos dados de freqüén- 
cia da Tabela 4.4, . 

Mostramos que P(A | Н) = 288/960 = 0,30. Vamos dividir agora tanto o numerador como o denomi- 
nador dessa fração por 1.200, que é o número total de oficiais integrantes do estudo. 


288 288/1200 0,24 
PATH) = 360 7 960/1200 0,807 030 


‚ Notamos agora que a probabilidade condicional P(A 1 Н) pode ser calculada como 0,24/0,80. Consulte 
a tabela de probabilidade associada (Tabela 4.5). Observe, em especial, que 0,24 é a probabilidade asso- 
ciada de A e Н; ou seja, P(A N Н) = 0,24. Note também que 0,80 é a probabilidade marginal de um ofi- 
cial aleatoriamente selecionado ser um homem; ou seja, Р(Н) = 0,80. Desse modo, a probabilidade con- 
dicional P(A | H) pode ser calculada como a razão da probabilidade associada P(A N H) pela probabilida- 
de marginal P(H). 


| PAnH 04 _ 
PAID = рну = 0807 030 


O fato de as probabilidades condicionais poderem ser calculadas como a razão de uma probabilidade 
associada pela probabilidade marginal nos fornece a seguinte fórmula geral para efetuarmos cálculos da 
probabilidade condicional de dois eventos A e B. 


PROBABILIDADE CONDICIONAL 


PANB 
P(A | B) = Um (4.7) 
ou 
Р(АГ\В 
Р(В\А)у = m (4.8) 


O diagrama de Venn da Figura 4.8 é átil para obtermos um entendimento intuitivo da probabilidade 
condicional. O círculo à direita mostra que ocorreu o evento B; a parte do círculo que se sobrepóe ao even- 
to А denota o evento (А N B). Sabemos que, desde que o evento B ocorreu, a única maneira pela qual tam- 
bém podemos observar o evento А é pela ocorrência do evento (А N B). Assim, a razão P(A П В)/Р(В) nos 
fomece a probabilidade condicional de que observaremos o evento А dado que o evento B já ocorreu. 

Retornemos à questão da discriminação contra oficiais do sexo feminino. A probabilidade marginal 
apresentada na linha 1 da Tabela 4.5 nos mostra que a probabilidade de promoção de um oficial é 
P(A) = 0,27 (independentemente de o oficial ser homem ou mulher). Entretanto, a questão crucial no caso 
da discriminação envolve as duas probabilidades condicionais P(A | H) e P(A | M). Ou seja, qual é a pro- 
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babilidade de promoção dado que o oficial seja um homem, e qual é a probabilidade de promoção dado 
que o oficial seja uma mulher? Se essas duas probabilidades forem iguais, não há base para o argumento 
de discriminação porque as chances de promoção são as mesmas para oficiais do sexo masculino e do sexo 
feminino. No entanto, a diferença nas duas probabilidades condicionais sustentará a posição de que os ofi- 
ciais masculinos e femininos são tratados diferentemente nas decisões de promoção. 

Já determinamos que P(A | H) = 0,30. Vamos usar agora os valores de probabilidade da Tabela 4.5 e a 
relação básica da probabilidade condicional apresentada na Equação 4.7 para calcular a probabilidade de 
um oficial ser promovido, dado que o oficial seja uma mulher; ou seja, P(A | M). 


Figura 4.8 Probabilidade condicional P(A | B) = P(A N B)/P(B) 


Evento A N B 


Evento À Evento B 


Usando a Equação 4.7, com M substituindo Н, obtemos: 


. РАП M) 0,03 
PAM) =" pap = 0,20 


= 0,5 


Que conclusão você tira? A probabilidade de haver uma promoção, dado que o oficial seja homem é 
de 0,30, duas vezes a probabilidade de 0,15 de promoção, dado que o oficial seja uma mulher. Não obs- 
tante o uso da probabilidade condicional não provar por si mesmo que exista discriminação nesse caso, os 
valores da probabilidade condicional sustentam o argumento apresentado pelas oficiais. 


Eventos Independentes 


Na ilustração anterior, P(A) = 0,27, P(A | H) = 0,30 e P(A | M) = 0,15. Notamos que a probabilidade de 
uma promoção (evento A) é afetada ou influenciada pelo fato de o oficial ser um homem ou uma mulher. 
Especialmente, desde que P(A | H) + P(A), poderíamos dizer que os eventos А е H são eventos dependen- 
tes, isto é, a probabilidade do evento A (promoção) é alterada ou afetada pelo fato de se saber que o evento 
H (o oficial é um homem) existe. Analogamente, com P(A | M) P(A), poderíamos dizer que os eventos A 
е M são eventos dependentes. Entretanto, se há probabilidade de o evento A não se alterar em função da 
existência do evento H — ou seja, P(A | H) = P(A) —, diríamos que os eventos A e H são eventos indepen- 
dentes. Essa situação leva à seguinte definição de independência de dois eventos: 


EVENTOS INDEPENDENTES 
Dois eventos A e B sáo independentes se 

P(A 1 В) = P(A) (4.9) 
ou 

Р(В 1А) = P(B) (4.10) 


Caso contrário, os eventos sáo dependentes. 


Lei da Multiplicacáo 


Enquanto a lei da adição é usada para calcular a probabilidade de uma união de dois eventos, a lei da multi- 
plicação é usada para calcular a probabilidade de uma interseção de dois eventos. A lei da multiplicação 
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baseia-se na definição da probabilidade condicional. Usando as Equações 4.7 e 4.8 e resolvendo P(A N B), 
obtemos a lei da multiplicação. 


LEI DA MULTIPLICAÇÃO 
P(A N В) = P(B)P(A | В) (4.11) 


ou 


P(A N В) = Р(А)Р(В | A) | (4.12) 


Para ilustrarmos o uso da lei da multiplicação, considere o departamento de circulação de um jornal, 
sabendo-se que 84% das famílias de determinado bairro assinam a edição diária do jornal. Se admitirmos 
que D denota o evento de uma família assinar a edição diária, P(D) = 0,84. Além disso, sabe-se que a pro- 
babilidade de uma família que já tem uma assinatura da edição diária também assinar a edição de domin- 
go (evento S) é 0,75; ou seja, P(S | D) = 0,75. 

Qual é a probabilidade de uma família assinar tanto a edição diária como a edição de domingo do jor- 
nal? Usando a lei da multiplicação, calculamos a P(S N D) desejada como 


P(S N D) = P(D)P(S ID) = 0,84(0,75) = 0,63 


Sabemos agora que 63% das famílias assinam tanto a edição diária quanto a edição dominical. 

Antes de concluirmos esta seção, consideremos o caso especial da lei da multiplicação em que os even- 
tos envolvidos são independentes. Lembre-se de que A e B são eventos independentes quando quer que 
P(A | B) = P(A) ou P(B ІА) = P(B). Portanto, usando as Equações 4.11 e 4.12 para o caso especial dos 
eventos independentes, obtemos a seguinte lei da multiplicação. 


LEI DA MULTIPLICAÇÃO PARA EVENTOS INDEPENDENTES 
P(A N В) = Р(А)Р(В) (4.13) 


Para calcular а probabilidade da interseção de dois eventos independentes, simplesmente multiplica- 
mos as probabilidades correspondentes. Note que a lei da multiplicação para eventos independentes cons- 
titui outra maneira de determinarmos se А e В são independentes. Ou seja, se P(A N B) = P(A)P(B), então 
А e В são independentes; se P(A N B) = P(A)P(B), então A e B são dependentes. 

Como uma aplicação da lei da multiplicação para eventos independentes, considere a situação de um 
gerente de posto de gasolina que sabe, por experiência, que 80% dos clientes usam cartões de crédito ao 
comprar gasolina. Qual é a probabilidade de os dois próximos clientes que compram gasolina usarem, cada 
um, um cartão de crédito? Se admitirmos que 


À = o evento de o primeiro cliente usar um cartão de crédito 
B = o evento de o segundo cliente usar um cartão de crédito 


então o evento que os interessa é А N B. Sem contarmos com nenhuma outra informação, podemos racio- 
nalmente supor que A e B são eventos independentes. Desse modo, 


P(A N В) = P(A)P(B) = (0,80)(0,80) = 0,64 


Para resumir esta seção, observamos que nosso interesse na probabilidade condicional é motivado pelo 
fato de os eventos frequentemente serem relacionados. Nesses casos, dizemos que os eventos são dependen- 
tes e as fórmulas apresentadas nas Equações 4.7 e 4.8 devem ser usadas para calcular as probabilidades do 
evento. Se dois eventos não estão relacionados, eles são independentes; nesse caso, não ocorrem nem a pro- 
babilidade do evento nem o outro evento. 


NOTAS E COMENTÁRIOS 


Não confunda a noção de eventos mutuamente exclusivos com a dos eventos independentes. Dois even- 
tos com probabilidades diferentes de zero não podem ser tanto mutuamente exclusivos como indepen- 
dentes. Quando se sabe que um evento mutuamente exclusivo ocorre, o outro não pode ocorrer; assim, 
a probabilidade de o outro evento ocorrer é reduzida a zero. Portanto, eles são dependentes. 
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Exercícios 


Métodos 


30. Suponha que temos dois eventos, A e B, sendo P(A) = 0,50, P(B) = 0,60 e P(A N B) = 0,40. 
a. Encontre P(A | B). 
b. Encontre P(B | A). d 
c. A e B são independentes? Por quê? AUTOTESTE 
31. Suponha que temos dois eventos, А e B, que sáo mutuamente exclusivos. Suponha, além disso, que 
conhecemos P(A) = 0,30 e P(B) = 0,40. 
а. Qual é Р(А П В)? 
b. Qual é P(A | B)? 
c. Um estudante de estatística argumenta que os conceitos de eventos mutuamente exclusivos e even- 
tos independentes são, na verdade, o mesmo, e que se os eventos são mutuamente exclusivos eles 
devem ser independentes. Você concorda com essa afirmação? Use a informação de probabilida- 
de nesse problema para justificar sua resposta. 
d. Qual conclusão geral você tiraria a respeito dos eventos mutuamente exclusivos e dos eventos inde- 
pendentes em função dos resultados desse problema? 


Aplicações 


32. Em razão do aumento dos custos dos seguros-saúde, 43 milhões de pessoas nos Estados Unidos não 
têm seguro-saúde (Time, 1º de dezembro de 2003). Dados amostrais representativos da cobertura de 
seguro-saúde em nível nacional para pessoas com idades a partir dos 18 anos são apresentados a seguir: 


Seguro-Saúde 


Sim Não 
Idade 18a34 750 170 
35 ou mais 950 130 


a. Desenvolva uma tabela de probabilidade associada e use-a para responder às questóes restantes. 

b. Que as probabilidades marginais lhe informam a respeito da idade da população norte-americana? 

c. Qual é a probabilidade de um indivíduo escolhido aleatoriamente ter cobertura de seguro-saúde? 

d. Se o indivíduo tiver entre 18 e 34 anos, qual é a probabilidade de ele não ter cobertura de seguro- 
saúde? 

e. Se o indivíduo tiver mais de 35 anos, qual é a probabilidade de ele não ter cobertura de seguro- 
saúde? 

f. Se o indivíduo não tiver seguro-saúde, qual é a probabilidade de ele estar na faixa etária de 18 a 34 
anos? 

g. О que a informação de probabilidade Ihe diz sobre a cobertura de seguro-saúde nos Estados Unidos? 


33. Em uma pesquisa de estudantes de MBA foram obtidos os seguintes dados a respeito da principal 
razão pela qual os “estudantes” haviam escolhido a escola na qual se matricularam. 


Motivo para Matricular-se 


Qualidade Custo da Escola 


da Escola ou Conveniência Outros Totais 

AUTOTESTE 
Tipo de Tempo Integral 421 393 76 890 
Matrícula Tempo Parcial 400 593 46 1.039 
Totais 821 986 122 1.929 


а. Desenvolva uma tabela de probabilidade associada para esses dados. 

b. Use as probabilidades marginais correspondentes à qualidade da escola, custo ou conveniência e 
outros para comentar a razáo mais importante para alguém escolher a escola. 

c. Se o estudante optou por tempo integral, qual é a probabilidade de a qualidade ser a primeira razáo 
para a escolha da escola? 

d. Se o estudante decidiu por tempo parcial, qual é a probabilidade de a qualidade ser a primeira razão 
para a escolha da escola? 

e. Admitamos que A denote o evento de um estudante estar em um curso de tempo integral e que B 
denote o evento de o estudante relacionar a qualidade da escola como a primeira razão para matri- 
cular-se. Os eventos A e B são independentes? Justifique sua resposta. 


154 


Estatística Aplicada à Administracáo e Economia 


34. A tabela a seguir apresenta a distribuição dos tipos de sangue da população em geral (Hoxworth 


Blood Center, Cincinnati, Ohio, março de 2003). 


A B AB о 
Rh+ 0,34 0,09 0,04 0,38 
Rh- .. 0,06 0,02 0,0! 0,06 


35. 


a. Qual é a probabilidade de uma pessoa ter sangue do tipo O? 

b. Qual a probabilidade de uma pessoa ser Rh-? 

C. Qual é a probabilidade de uma pessoa ser Rh- sendo do grupo sangüíneo do tipo О? 

d. Qual é a probabilidade de uma pessoa ter o tipo sangüíneo B sendo Rh+? 

e. Qual é a probabilidade de, em um casal, ambos os cônjuges serem Rh-? 

f. Qual é a probabilidade de, em um casal, ambos os cônjuges terem o tipo sangüíneo AB? 

O U.S. Bureau of Labor Statistics colheu dados sobre a ocupação de trabalhadores cujas idades varia- 
vam de 25 a 64 anos. A tabela a seguir apresenta o número de trabalhadores e trabalhadoras (em 
milhões) em cada categoria de ocupação (Statistical Abstract of the United States 2002). 


Ocupação Homens Mulheres 
Área gerencial/profissional liberal 19.079 19.021 
Área técnica/vendas/administrativa 11.079 19.315 
Servico 4.977 7.947 
Producáo de precisáo 11.682 1.138 
Operadores/manufatura/mão-de-obra 10.576 3.482 
Agricultura/administração florestal/pesca 1.838 514 


36. 


37. 


38. 


a. Desenvolva uma tabela de probabilidade associada. 

b. Qual é a probabilidade de uma mulher trabalhadora ser gerente ou profissional liberal? 

c. Qual é a probabilidade de um homem trabalhador ser da área de produção de precisão? 
d. A ocupação independe de sexo? Justifique sua resposta com um cálculo de probabilidade. 


Reggie Miller, do Indiana Pacers, é o melhor arremessador de lances livres da National Basketball 
Association, acertando 89% de seus arremessos (USA Today, 22 de janeiro de 2004). Suponha que no 
fim de um jogo de basquete, Reggie Miller sofra uma falta e se encarregue da cobranga de dois lan- 
ces livres. 


а. Qual é a probabilidade que ele tem de acertar ambos os arremessos? 

b. Qual é a probabilidade que ele tem de acertar pelo menos um dos arremessos? 

с. Qual é a probabilidade que ele tem de errar os dois arremessos? 

d. No fim de um jogo de basquete, freqüentemente uma equipe cornete falta em um jogador adversá- 
rio a fim de parar o cronómetro do jogo. А estratégia habitual é cometer falta intencionalmente no 
pior arremessador de lances livres da outra equipe. Suponha que o pivó do Indiana Pacers acerte 
58% de seus arremessos de lances livres. Calcule as probabilidades do pivó conforme as indica- . 
ções nos itens (a), (b) e (c) e demonstre que cometer faltas intencionalmente no pivô do Indiana 
Pacers é uma estratégia melhor que cometer faltas intencionalmente em Reggie Miller. 


Um agente de compras fez encomendas urgentes de determinada matéria-prima a dois diferentes for- 
necedores, A e B. Se nenhuma encomenda chegar em quatro dias, o processo de produção precisará 
ser interrompido até que pelo menos uma das encomendas chegue. A probabilidade de o fornecedor 
A poder entregar a matéria-prima em quatro dias é 0,55. A probabilidade de o fornecedor B poder 
entregar a matéria-prima em quatro dias é 0,35. 


a. Qual é a probabilidade de ambos os fornecedores entregarem a matéria-prima em quatro dias? Uma 
vez que dois fornecedores distintos estão envolvidos, estamos inclinados a supor independência. 

b. Qual é a probabilidade de pelo menos um fornecedor entregar a matéria-prima em quatro dias? 

c. Qual é a probabilidade de o processo de produção estar paralisado em quatro dias em virtude da 
escassez da matéria-prima (ou seja, ambas as encomendas estarem atrasadas)? 


A Minneapolis Heart Institute Foundation promoveu um estudo para determinar o benefício de 
fornecer tratamento de acompanhamento a pacientes que tiveram alta hospitalar depois do tratamen- 
to de um ataque cardíaco (The Wall Street Journal, 11 de novembro de 2002). Dos 2.060 pacientes, 
1.070 não retornaram para o tratamento de acompanhamento e 990 o fizeram. Dentro de 24 meses, 
14 dos pacientes que recebiam tratamento de acompanhamento morreram e 29 dos pacientes que não 
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recebiam tratamento de acompanhamento também morreram. Dentro de 54 meses, 20 dos pacientes 
que recebiam tratamento de acompanhamento morreram, e 49 dos pacientes que não recebiam trata- 
mento de acompanhamento morreram. 


a. Qual é a probabilidade de um paciente morrer dentro de 24 meses após a alta hospitalar para trata- 
mento de um ataque cardíaco? 

b. Usando os dados correspondentes aos 24 meses após a alta hospitalar, calcule as probabilidades 
condicionais de os pacientes que recebem e que não recebem tratamento de acompanhamento 
virem a morrer. 

c. A probabilidade de morrer dentro de 24 meses após a alta hospitalar independe de a pessoa rece- 
ber tratamento de acompanhamento? Explique. 

d. Usando os dados correspondentes aos 54 meses, calcule as probabilidades condicionais de os 
pacientes que recebem e que não recebem tratamento de acompanhamento virem a morrer. 

e. Você recomendaria a um amigo inscrever-se em um programa de tratamento de acompanhamento? 


4.5 TEOREMA DE BAYES 


Na discussão da probabilidade condicional, indicamos que revisar as probabilidades quando se obtêm 
novas informações é uma etapa importante da análise de probabilidades. Freqiientemente, iniciamos a aná- 
lise com estimativas da probabilidade inicial ou a priori para eventos de interesse específico. Então, a 
partir de fontes como uma amostra, relatório especial ou teste de produto, obtemos informações adicionais 
sobre os eventos. Dadas essas novas informações, atualizamos os valores da probabilidade prévia calcu- 
lando as probabilidades revisadas, chamadas probabilidades a posteriori. O teorema de Bayes constitui 
um meio de efetuarmos esses cálculos de probabilidade. As etapas desse processo de revisão de probabi- 
lidade são mostradas na Figura 4.9. 

Como uma aplicação do teorema de Bayes, considere uma firma de manufatura que recebe remessas 
de peças e dois diferentes fornecedores. Digamos que A, denote o evento de uma peça ser proveniente do 
fornecedor 1 e A, denote o evento de a peça vir do fornecedor 2. Atualmente, 65% das peças compradas 
pela empresa são do fornecedor 1 e os restantes 35% são do fornecedor 2. Portanto, se uma peça for esco- 
Ihida aleatoriamente, atribuiríamos as probabilidades iniciais P(A,) = 0,65 e P(A;) = 0,35. 


Figura 4.9 Revisão da probabilidade usando o Teorema de Bayes 


E 


| Probabilidades . Nova | ^ Aplicação Probabilidades ; 


am А = do teorema + А MP 
- a priori informacáo orema ^ aposteriori 
M : tl ` de Bayes UB 


Г 


Tabela 4.6 Níveis históricos da qualidade de dois fornecedores 


Porcentagem de Porcentagem de 
Peças Boas Peças Ruins 
Fornecedor | 98 2 
Fornecedor 2 95 5 


А qualidade das pegas compradas varia de acordo com a fonte de fornecimento. Os dados históricos 
sugerem que as avaliações da qualidade dos dois fornecedores são similares às que são apresentadas na 
Tabela 4.6. Se admitirmos que B denota o evento de uma peça boa e R denota o evento de uma peça ruim, 
a informação contida na Tabela 4.6 nos oferece os seguintes valores de probabilidade condicional. 


PBIA)=098P(RIA,) = 0,02 
P(BIA) = 0,95 P(RI A) = 0,05 


O diagrama em árvore da Figura 4.10 descreve o processo de a empresa receber uma peça de um dos 
dois fornecedores e depois descobrir que a peça é boa ou ruim como um experimento de duas etapas. 
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Notamos que são possíveis quatro resultados experimentais: dois correspondem ao fato de a peça ser boa 


e dois correspondem ao fato de a peça ser ruim. 


Cada um dos resultados experimentais é a interseção de dois eventos, de forma que podemos usar a 
regra de multiplicação para calcular as probabilidades. Por exemplo, 


P(A, B) = P(A; N B) = P(A DP LÀ) 


O processo de cálculo dessas probabilidades associadas pode ser retratado por meio daquilo que cha- 
mamos árvore de probabilidades (veja a Figura 4.11). Da esquerda para a direita ao longo da árvore, as 
probabilidades correspondentes a cada uma das ramificações indicadas na etapa 1 são probabilidades a 
priori, e as probabilidades correspondentes a cada uma das ramificações indicadas na etapa 2 são proba- 


bilidades condicionais. 


Figura 4.10 Diagrama em árvore correspondente ao exemplo dos dois fornecedores 


Etapa | 
Fornecedor 


Etapa 2 
Condição 


! Resultado 
! Experimental 
І 
(А,В) 
(А.В) 


(Аз, В) 


(As R) 


Nota: À etapa | mostra que a peça vem de um dos dois fornecedores, 
е a etapa 2 mostra se a peça é boa ou ruim. 


Figura 4.1 | Árvore de probabilidades correspondente ao exemplo dos dois fornecedores 


Etapa | 
Fomecedor 


Etapa 2 | 
Condicao | 


PBIA) 
— 98 

PRIA) 
0,02 


0,65 


PB IAD 


0,95 
PRIA) 


Resultado 
Experimental 


Р(А N B) = PA DPE IA) = 0,6370 


P(A, NR) = PADPRIA) = 0,0130 


P(A N B) = P(AP(B 1A) = 0,3325 


P(A NR) = PAPERIA) = 0,0175 


Para encontrar as probabilidades de cada resultado experimental, simplesmente multiplicamos as pro- 
babilidades nas ramificações que levam ao resultado. Cada uma dessas probabilidades associadas é mos- 
trada na Figura 4.11, juntamente com as probabilidades conhecidas correspondentes a cada ramificação. 
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Suponha agora que as peças recebidas dos dois fornecedores são usadas no processo manufatureiro da 
firma e que uma máquina se quebre ao tentar processar uma peça ruim. Dada a informação de que a peça 
é ruim, qual é a probabilidade de ela ter vindo do fornecedor 1.e qual é a probabilidade de ela ter vindo 
do fornecedor 2? Com as informações contidas na árvore de probabilidades (Figura 4.11), o teorema de 
Bayes pode ser usado para responder a essas questões. 

Admitindo que R denote o evento de a peça ser ruim, estamos à procura das probabilidades P(A; | B) 
e P(A, B). Da lei da probabilidade condicional, sabemos que 


PA NR 
P(A IR) = тата (4.14) 
Consultando a árvore de probabilidades, vemos que 

P(A NR) = PADPRIA) (4.15) 


Para encontrar P(R), notamos que o evento R pode ocorrer somente de duas maneiras: (A, N R) e 
(A; П R). Portanto, temos 
Р(К) = PA NR) + P(A NR) 
= P(A)P(R IA) + P(AJP(R IA) (4.16) 


Substituindo os dados das Equações 4.15 e 4.16 na Equação 4.14 e escrevendo um resultado similar 
para P(A, | К), obtemos o teorema de Bayes para o caso de dois eventos. 


Credita-se ao 
TEOREMA DE BAYES (CASO DE DOIS EVENTOS) reverendo Thomas 
Bayes (1702-1761), 
P(A)P(R LA) (4.17) um ministro 
P(AQP(RIA) + P(A)P(R1A;) presbiteriano, o 
trabalho original 
que levou à versão 


P(A9P(R | Ау) (4.18) do teorema de 
P(ADP(R IA?) + PADER |A) Bayes que usamos 


atualmente. 


P(A IR) = 


P(A;|R) 


Usando a Equação 4.17 e os valores de probabilidade do exemplo, temos 
P(AgP(R IA) 
P(ADP(RI Ay) + P(ADP(R | A) 


(0,65)(0,02) 0,013 
© (0,65X0,02) + (0,35Y(0,05) 0,013 + 0,0175 


P(A, IR) 


_ 0,013 


0,0305 ^ 0,4262 


Além disso, usando a Equação 4.18, encontramos Р(А R). 


(0.350,05) 
P(A2 VR) —15.65(0,02) + (0,3550,05) 


0,175 0,175 
70,0130 + 0,175 = 0,305 7 05738 


Note que nessa aplicação iniciamos com a probabilidade de 0,65 de que uma peça escolhida aleatoria- 
mente tenha sido do fornecedor 1. Entretanto, dada a informação de que a peça é ruim, a probabilidade de 
que ela seja do fornecedor 1 cai para 0,4262. De fato, se a peça for ruim, ela tem uma chance maior que 
50:50 de ter vindo do fornecedor 2: ou seja, P(A, | R) = 0,5738. 
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O teorema de Bayes é aplicável quando os eventos para os quais queremos calcular probabilidades a 
posteriori são mutuamente exclusivos e a união deles é o espaço amostral inteiro.3 Para o caso de n even- 
tos А, A», ...., А, mutuamente exclusivos, cuja união é o espaço amostral inteiro, o teorema de Bayes pode 
ser usado para calcular qualquer probabilidade a posteriori P(A, | К), como mostramos aqui: 


TEOREMA DE BAYES 


PAPRIA) 


Feat P(A)P(RVA) + P(A)P(R VA, + > P(A)P(RTA,) 


(4.19) 


Com as probabilidades a priori Р(А,), P(A;), ...., P(A,) e as probabilidades condicionais apropriadas 
PÈR | A1), PÈR | A5), ...., P(R 1 Аш), pode-se usar a Equação 4.19 para calcular a probabilidade a posteriori 
dos eventos A, А, ..., А„. 


A Abordagem Tabular 


Uma abordagem tabular é útil para se efetuarem os cálculos do teorema de Bayes. Esse tipo de abordagem 
é mostrado na Tabela 4.7, correspondente ao problema dos fornecedores de peças. Os cálculos lá mostra- 
dos são feitos nas seguintes etapas: 

Etapa 1. Prepare as três colunas seguintes: 

Coluna 1 - Os eventos A; mutuamente exclusivos para os quais se desejam as probabili- 
dades a posteriori. 

Coluna 2 — As probabilidades a priori P(A) dos eventos. 

Coluna 3 — As probabilidades condicionais P(R | Aj) da nova informação R dada para cada 
evento. 

Etapa 2. Na coluna 4, calcule as probabilidades associadas P(A; N R) correspondentes a cada even- 
to, e a nova informação R usando-se a lei da multiplicação. Essas probabilidades associa- 
das são encontradas multiplicando-se as probabilidades iniciais da coluna 2 pelas proba- 
bilidades condicionais correspondentes na coluna 3; ou seja, P(A, N R) = P(A)P(R | Aj. 

Etapa 3. Some as probabilidades associadas da coluna 4. A soma é a probabilidade da nova infor- 
mação, P(R). Desse modo, vemos na Tabela 4.7 que há uma probabilidade de 0,0130 de a 
peça ruim ter vindo do fornecedor 1 e uma probabilidade de 0,0175 de a peça ruim ter 
vindo do fornecedor 2. Desde que estas sejam as duas únicas maneiras pelas quais uma 
peça ruim pode ser obtida, a soma 0,0130 + 0,0175 mostra uma probabilidade global de 
0,0305 de se encontrar uma peça ruim nas remessas conjuntas dos dois fornecedores. 

Etapa 4. Na coluna 5, calcule as probabilidades a posteriori usando a relação básica de probabili- 
dade condicional. 


PAIR) -PAOR 2 


Observe que as probabilidades associadas P(A; Г\ R) estáo na coluna 4 e que a probabilidade P(R) é a 
soma da coluna 4. 


Tabela 4.7 Abordagem tabular para cálculos do Teorema de Bayes referentes ao problema 
dos dois fomecedores 


(1) 2) (3) (4) (5) 
Probabilidades Probabilidades Probabilidades Probabilidades 
Eventos a Priori Condicionais Associadas a Posteriori 
P(A) P(R | A) P(A; П R) P(A; | R) 
Ai 0,65 0,02 0,0130 0,0130/0,0305 — 0,4262 
А; 0,35 0,05 0.0175 0,0175/0,0305 = 0,5738 
Аз 1,00 P(R) = 0,0305 1,0000 


3 Se a união dos eventos for o espaço amostral inteiro, diz-se que os eventos são coletivamente exaustivos. 
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NOTAS E COMENTÁRIOS 


1. 


O teorema de Bayes é amplamente usado na análise de decisões. As probabilidades iniciais freqüente- 
mente são estimativas subjetivas apresentadas por um tomador de decisões. As informações da amos- 
tra são obtidas e as probabilidades a posteriori são calculadas a fim de serem utilizadas na escolha da 
melhor decisão. 


Um evento e seu complemento são mutuamente exclusivos, e sua união constitui o espaço amostral 


inteiro. Desse modo, o teorema de Bayes é sempre aplicável quando se quer calcular as probabilidades 
a posteriori de um evento e seu complemento, 


Exercícios 


Métodos 


39, 


40. 


As probabilidades a priori dos eventos A, e A, são P(A,) = 0,40 e P(A») = 0,60. Sabe-se também 
que P(A, П Аз) = 0. Suponha que P(R | Aj) = 0,20 e PÈR | A,) = 0,05. 

а, A, € А são mutuamente exclusivos? Explique. 

b. Calcule P(A, N А) e P(A, N R). 

c. Calcule P(R). 

d. Aplique o teorema de Bayes para calcular P(A, | К) e P(A, | R). 

As probabilidades iniciais dos eventos Д, Аз e Аз são P(A,) = 0,20, Р(А,) = 0,50 e P(A;) = 0,30. As 
probabilidades condicionais do evento B, dados Ау, Аз e A; são P(R | Aj) = 0,50, P(RIA,) = 0,40 e 
PÈR | As) = 0,30. 

а. Calcule P(R N Ау), (RNA) e PCR ПАЗ). 
b. Aplique o teorema de Bayes, a Equação 4.19, para calcular a probabilidade a posteriori P(A, | R). 
c. Use a abordagem tabular para aplicar o teorema de Bayes ao cálculo de P(A, 1 А), P(A, | R) е P(A; | R). 


Aplicações 


41. 


42. 


43. 


Uma firma de consultoria apresentou uma proposta para a execução de um grande projeto de pesqui- 
sa. À gerência da firma achava inicialmente que tinham uma chance de 50:50 de obter o projeto. No 
entanto, о órgão para o qual a proposta foi submetida solicitou subsequentemente informações adi- 
cionais sobre a proposta apresentada, A experiência indica que para 75% das propostas bem-sucedi- 
das e para 40% das propostas malsucedidas o órgão solicitara informações adicionais. 


a. Qual é a probabilidade a priori de a proposta ser bem-sucedida (isto é, antes do pedido de infor- 
mações adicionais)? 

b. Qual é a probabilidade condicional de um pedido de informações adicionais, dado que a proposta 
seja, por fim, bem-sucedida? 

c. Calcule a probabilidade a posteriori de que a proposta seja bem-sucedida, dado um pedido de 
informações adicionais. 

Um banco local fez uma revisão de sua política de cartões de crédito com a intenção de cancelar 

alguns contratos de cartões. No passado, aproximadamente 5% dos detentores de cartões de crédito 

se tornaram inadimplentes, deixando o banco incapaz de cobrar o saldo devedor. Portanto, a gerência 

estabeleceu uma probabilidade a priori de 0,05 de que qualquer portador de cartão de crédito em par- 

ticular se tornará inadimplente, O banco também descobriu que a probabilidade de os clientes que não 

são inadimplentes deixarem de efetuar um pagamento mensal é 0,20. Naturalmente, a probabilidade 

de os inadimplentes deixarem de efetuar um pagamento mensal é 1. 


a. Dado que o cliente tenha deixado de efetuar um ou mais pagamentos mensais, calcule a probabili- 
dade a posteriori de que o cliente se torne inadimplente. 

b. O banco gostaria de cancelar o cartão de crédito se a probabilidade de um cliente tornar-se inadim- 
plente for maior que 0,20. O banco deveria cancelar o cartão se o cliente deixar de efetuar um paga- 
mento mensal? Por quê? 


Carros pequenos têm um melhor desempenho quanto ao consumo de combustível por quilômetro, mas 


não são tão seguros quanto os carros maiores. Os carros pequenos são responsáveis por 18% dos veí- 
culos nas estradas, mas os acidentes envolvendo carros pequenos acarretaram 11.898 mortes durante 
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um ano recente (Reader's Digest, maio de 2000). Suponha que a probabilidade de um carro pequeno 
envolver-se em um acidente seja 0,18. A probabilidade de um acidente envolvendo um carro peque- 
no е que provoca uma morte é 0,128, e a probabilidade de um acidente não envolvendo um carro 
pequeno e que acarreta uma morte é 0,05. Suponha que vocé soube de um acidente envolvendo uma 
morte. Qual é a probabilidade de um carro pequeno estar envolvido nesse acidente? Suponha que a 
probabilidade de envolver-se em um acidente independa do tamanho do carro. 


44. O American Council of Education divulgou que 47% dos calouros universitários colam graus e fazem 


45. 


pós-graduação em cinco anos (Associated Press, 6 de maio de 2002). Suponha que os registros do 
curso de pós-graduação mostrem que as mulheres compõem 50% dos estudantes que se graduaram 
em cinco anos, mas somente 45% dos estudantes que náo se graduaram em cinco anos. Os estudan- 
tes que náo se graduaram em cinco anos ou saíram da escola ou ainda nào tinham concluído o curso. 


a. Se admitirmos que 4, = o estudante que se graduou em cinco anos 
A, = о estudante que não se graduou em cinco anos 
M = o estudante é uma mulher t 
Usando a informação dada, quais são os valores para P(A;), P(A5), P(M | A) e PM | А)? 
b. Qual é a probabilidade de uma mulher graduar-se dentro de cinco anos? 
C. Qual é a probabilidade de um homem graduar-se dentro de cinco anos? 
d. Dados os resultados anteriores, qual é a porcentagem de mulheres e qual é a porcentagem de 
homens calouros na universidade? 


Em um artigo sobre o aumento dos investimentos, a revista Money relatou que os títulos de empresas 
de produtos farmacéuticos exibem fortes tendéncias a longo prazo e oferecem aos investidores um 
potencial incomparável para a obtenção de retornos volumosos e constantes. A Health Care Financing 
Administration do governo federal sustenta essa conclusão por meio de sua previsão de que os gas- 
tos anuais com medicamentos vendidos sob prescrição médica passarão dos US$ 117 bilhões em 
2000 para US$ 366 bilhões em 2010. Muitas pessoas que têm mais de 65 anos recorrem fortemente 
aos medicamentos vendidos sob prescrição médica. Em relação a esse grupo, 82% tomam regular- 
mente medicamentos vendidos com receita, 55% tomam regularmente três ou mais medicamentos 
vendidos com receita, e 40% usam atualmente cinco ou mais remédios vendidos com receita. 
Comparativamente, 49% das pessoas com menos de 65 anos tomam regularmente remédios vendidos 
com prescrição médica, e 17% tomam regularmente trés ou mais remédios vendidos com receita e 
28% usam cinco ou mais remédios vendidos com receita (Money, setembro de 2001). 
O Departamento do Censo norte-americano relata que da população de 281.421.906 nos Estados 
Unidos, 34.991.753 têm mais de 65 anos (U.S. Census Bureau, Census 2000). 


a. Calcule a probabilidade de uma pessoa nos Estados Unidos ter 65 anos ou mais. 

b. Calcule a probabilidade de uma pessoa tomar remédios com prescrição médica regularmente. 

c. Calcule a probabilidade de uma pessoa com 65 anos ou mais tomar cinco ou mais medicamentos 
vendidos com receita médica. 

d. Dado que uma pessoa use cinco ou mais medicamentos vendidos com receita médica, calcule a 
probabilidade de essa pessoa ter 65 anos ou mais. 


Resumo 


Neste capítulo, introduzimos os conceitos básicos de probabilidade e ilustramos como a análise das pro- 
babilidades pode ser usada para fornecer informações úteis para a tomada de decisões. Descrevemos como 
a probabilidade pode ser interpretada como a medida numérica da possibilidade de um evento ocorrer. 
Além disso, vimos que a probabilidade de um evento pode ser calculada somando-se as probabilidades dos 
resultados experimentais (pontos amostrais) que compreendem o evento ou usando-se as relações estabe- 
lecidas pelas leis de probabilidade da adição, da probabilidade condicional e da multiplicação. Para os 
casos em que informações adicionais estão disponíveis, mostramos como o teorema de Bayes pode ser 
usado para se obter probabilidades revisadas ou posteriores. 


Glossário 


Probabilidade Medida numérica da possibilidade de um evento ocorrer. 
Experimento Processo que gera resultados bem definidos. 
Espaço amostral Conjunto de todos os resultados experimentais. 
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Ponto amostral Elemento do espaço amostral. Um ponto amostral representa um resultado experimental. 

Diagrama em árvore Representação gráfica que ajuda a visualizar um experimento de múltiplas etapas. 

Requisitos básicos para a atribuição de probabilidades Dois requisitos que restringem a maneira pela 
qual se podem fazer atribuições de probabilidades: (a) Para cada resultado experimental E,, devemos 
ter 0 < P(E) < 1; (b) Considerando-se todos os resultados experimentais, devemos ter P(Ej) + P(E;) 
+... + Р(Е,) = 1,0. 

Método clássico Método de atribuir probabilidades que é apropriado quando todos os resultados experi- 
mentais são igualmente prováveis. 

Método da freqüéncia relativa Método de atribuição de probabilidades que é apropriado quando há 
dados disponíveis para estimar a proporção do tempo que o resultado experimental ocorrerá se o expe- 
rimento for repetido um grande número de vezes. 

Método subjetivo Método de atribuição de probabilidades que se baseia no julgamento, 

Evento Conjunto de pontos amostrais. 

Complemento de A Evento que consiste em todos os pontos amostrais que não estão em А. 

Diagrama de Venn Representação gráfica para exibir simbolicamente o espaço amostral e as operações 
que envolvem eventos na qual o espaço amostral é representado por um retângulo e os eventos são 
representados por círculos. 

União de A e B Evento que contém todos os pontos amostrais que pertencem a А, B, ou a'ambos. A união 
é denotada por A U B. 

Interseção de А e B Evento que contém todos os pontos amostrais que pertencem tanto a А como a B. A 
interseção é denotada por A П B. 

Lei da adição Lei de probabilidade usada para calcular a probabilidade da união de dois eventos. Ela é 
P(A U B) = P(A) + P(B)-P(A N В). Para eventos mutuamente exclusivos, P(A N B) = 0; nesse caso, 
a lei da adição se reduz a P(A U B) = P(A) + P(B). 

Eventos mutuamente exclusivos Eventos que não têm pontos amostrais em comum, ou seja, А N B é 
vazia e P(A N B) = 0. 

Probabilidade condicional A probabilidade de um evento, dado que outro evento já tenha ocorrido. A 
probabilidade condicional de A, dado В, é P(A 1 В) = P(A П ByP(B). 

Probabilidade associada A probabilidade de haver dois eventos e ambos ocorrerem; ou seja, a probabi- 
lidade da interseção de dois eventos. 

Probabilidade marginal Os valores situados nas margens de uma tabela de probabilidade associada que 
fornecem as probabilidades de cada evento separadamente. 

Eventos independentes Dois eventos A e B, em que P(A | B) = P(A) ou P(BIA) = P(B}; ou seja, os even- 
tos não têm nenhuma influência mútua. 

Lei da multiplicação Lei de probabilidade usada para calcular a probabilidade da interseção de dois even- 
tos. Ela é P(A N В) = P(B)P(A | B) ou P(A П B) = P(AYP(B | A). Para eventos independentes, ela se 
reduz a P(A N B) = Р(А)Р(В). 

Probabilidades a priori Estimativas iniciais das probabilidades dos eventos. 

Probabilidades a posteriori Probabilidades revisadas dos eventos, baseadas em informações adicionais. 

Teorema de Bayes Método usado para calcular probabilidades a posteriori. 


Fórmulas-Chave 


Regra de Contagem de Combinações 


N N! 
м = рі 
Ca (1) пі — n) an 
Regra de Contagem de Permutações 
N N! 
РҮ = | |= 4.2 
no" (1) (N п)! e» 


Cálculo da Probabilidade Usando o Complemento 
PA) = 1 — P(A?) (4.5) 
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Lei da Adicáo 
P(A U B) = P(A) + P(B) - P(A N B) (4.6) 
Probabilidade Condicional | 
Р(А П B 
P(A | B) = ama (4.7) 
Р(А ПВ 
Р(ВІТА) = а? | (4.8) 
Lei da Multiplicação 
P(A N B) = Р(В)Р(А | B) (4.11) 
P(A N B) = Р(А)Р(В | A) (4.12) 
Lei da Multiplicação de Eventos Independentes 
P(A N В) = P(A)P(B) (4.13) 
Теогета de Bayes 
P(AJP(B | А) 


P(A; | В) (4.19) 


P(A P(B | А,) + P(A)P(B | Aj) + ++- + PADPBIA,) 


Exercícios Suplementares 


46. 


47. 


48. 


Em uma pesquisa de opinião realizada pela Business Week/Harris Poll, 1.035 pessoas adultas foram soli- 
citadas a dizer qual postura elas tinham em relação aos negócios (Business Week, 11 de setembro de 
2000). Foi feita a seguinte pergunta: “Como você avaliaria as grandes empresas norte-americanas em 
termos de produzirem bons produtos e competirem em um ambiente globalizado?” As respostas foram: 
excelente — 18%, ótimo — 50%, razoável — 26%, ruim — 5% e não sei/nenhuma resposta — 1%. 


a. Qual é a probabilidade de uma pessoa consultada ter avaliado as empresas norte-americanas como 
ótimas ou excelentes? ` 

b. Quantas pessoas consultadas avaliaram as empresas norte-americanas como ruins? 

c. Quantas pessoas consultadas não souberam dar uma resposta ou não responderam? 


Um gerente financeiro fez dois novos investimentos: um na indústria petrolífera e um em títulos 
municipais. Após o período de um ano, cada um dos investimentos será classificado como bem-suce- 


- dido ou malsucedido. Considere a realização dos dois investimentos como um experimento. 


a. Quantos pontos amostrais existem para esse experimento? 

b. Apresente um diagrama em árvore e relacione os pontos amostrais. 

c. Admitamos que O = o evento de o investimento na indústria petrolífera ser bem-sucedido e 
M = o evento de o investimento em títulos municipais ser bem-sucedido. Relacione os pontos 
amostrais em O e em M. 

d. Relacione os pontos amostrais na união dos eventos (O U M). 

e. Relacione os pontos amostrais na interseção dos eventos (О N M). 

f. Os eventos O e M são mutuamente exclusivos? Explique. 


No início de 2003 o presidente Bush propôs eliminar a tributação dos dividendos pagos a acionistas 
afirmando que se tratava de dupla tributação. As corporações pagam impostos sobre os rendimentos 
que mais tarde são pagos em dividendos. Em uma pesquisa de opinião de 671 norte-americanos, a 
TechnoMetrica Market Intelligence descobriu que 47% dos entrevistados eram favoráveis à propos- 
ta, 44% se opunham e 9% não tinham certeza (Investor's Business Daily, 13 de janeiro de 2003). Ao 
examinar as respostas baseando-se na opção partidária, a pesquisa mostrou que 29% dos democratas 
eram favoráveis, 64% dos republicanos eram favoráveis e 48% dos independentes eram favoráveis. 


a. Quantos dos entrevistados eram favoráveis à eliminação da tributação dos dividendos? 

b. Qual é a probabilidade condicional das pessoas favoráveis à proposta, uma vez que a pessoa entre- 
vistada é um democrata? 

c. À filiação partidária independe de alguém ser favorável à proposta? 

d. Se presumirmos que as respostas das pessoas foram coerentes com seus próprios interesses pes- 
soais, qual grupo você acha que se beneficiaria mais com a aprovação da proposta? 
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49. 


50. 


Um estudo de 31 mil internações hospitalares no estado de Nova York descobriu que 4% das interna- 

ções acarretavam lesões causadas pelo tratamento. Um sétimo dessas lesões resultou em morte e um 

quarto delas foi causado por negligência. Foram ajuizados pedidos de indenização por imperícia 

médica em um de cada 7,5 casos envolvendo negligência, e indenizações foram pagas em um de cada 

dois pedidos. 

a. Qual é a probabilidade de uma pessoa internada em um hospital sofrer uma lesão em razão da 
negligência? 

b. Qual é а probabilidade de uma pessoa internada em um hospital morrer em consegiência de uma 
lesão causada pelo tratamento? 

c. No caso de uma lesão causada por negligência, qual é a probabilidade de uma reivindicação de 
indenização por imperícia médica ser paga? 

Uma pesquisa feita por telefone para determinar a reação dos telespectadores a um novo programa de 

televisão obteve os seguintes dados. 


51, 


Avaliação Frequência 
Fraco 4 
Abaixo da Média 8 
Médio 11 
Acima da Média 14 
Excelente 13 


а. Qual é a probabilidade de um telespectador escolhido aleatoriamente avaliar que o novo programa 
é médio ou melhor? 

b. Qual é a probabilidade de um telespectador escolhido aleatoriamente avaliar que o novo programa 
está abaixo da média ou pior? 


A seguinte tabulação cruzada apresenta a renda familiar por nível educacional do chefe da família 
(Statistical Abstract of the United State 2002). 


Renda Familiar (US$1.000s) 


Abaixo de 25,0- 50,0- 75,0- 100 ou 

Nível Educacional 25 49,9 74,9 99,9 mais Total 
Sem Diploma do Ensino Médio 9.285 4.093 1.589 541 354 15.862 
Com Diploma do Ensino Médio 10.150 9.821 6.050 2.737 2.028 . 30.786 
Universitário Incompleto 6.011 8.221 5.813 3215 3.120 26.380 
Bacharelado 2.138 3.985 3.952 2.698 4.748 17.521 
Superior ao Bacharelado 813 1.497 1.815 1.589 3.765 9.479 

Total 28.397 27.617 19.219 10.780 14.015 100.028 


а. Desenvolva uma tabela de probabilidade associada. 

b. Qual é a probabilidade de um chefe de família não ter diploma de ensino médio? 

c. Qual é a probabilidade de um chefe de família ter grau de bacharel ou superior? 

d. Qual é a probabilidade de uma família dirigida por alguém que tem o grau de bacharel ganhar 
US$ 100 mil ou mais? 

е. Qual é a probabilidade de uma família ter renda abaixo de US$ 25 mil? 

f. Qual é a probabilidade de uma família dirigida por alguém que tem o grau de bacharel ganhar 
menos de US$ 25 mil? 

в. А renda familiar independe do nível educacional? 


52. Uma pesquisa dos novos matriculandos no curso de MBA da GMAC forneceu os seguintes dados, cor- 


respondentes a 2.018 alunos. 


inscritos em mais 
de uma Escola 


Sim Não 

23 anos ou menos 207 201 

Faixa 24-26 299 379 
Etária 27-30 185 268 
31-35 66 193 


36 anos ou mais 5! 169 
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53. 


54. 


a. Considerando um estudante de MBA escolhido aleatoriamente, prepare uma tabela de probabilida- 
de associada do experimento que consiste em observar a idade do aluno e se ele se inscreveu em 
uma ou mais escolas. 

b. Qual é a probabilidade de um candidato escolhido aleatoriamente ter 23 anos ou menos? 

c. Qual é a probabilidade de um candidato escolhido aleatoriamente ter mais de 26 anos? 

d. Qual é a probabilidade de um candidato escolhido aleatoriamente ter-se inscrito em mais de uma 
escola? 


Consulte novamente os dados da pesquisa dos novos matriculandos na GMAC apresentados no 
Exercício 52. 


a. Dado que uma pessoa se inscreva em mais de uma escola, qual é a probabilidade de 
a pessoa ter entre 24 e 26 anos? 

b. Dado que uma pessoa esteja na faixa etária de 36 anos ou mais, qual é a probabilidade de ela se 
inscrever em mais de uma escola? 

c. Qual é a probabilidade de uma pessoa ter idade entre 24 e 26 anos ou ter-se inscrito em mais de 
uma escola? 

d. Suponha que saibamos que uma pessoa se inscreveu somente em uma escola. Qual é a probabili- 
dade de a pessoa ter 31 anos ou mais? 

е. О nümero de escolas em que se os estudantes se inscrevem independe de idade? Explique. 


Uma pesquisa de opinião da IBD/TIPP, realizada com o objetivo de saber qual era a postura das pes- 
soas em relação aos investimentos e aposentadoria (Investor's Business Daily, 5 de maio de 2000), 
perguntou a homens e mulheres qual a importáncia do nível de risco existente na escolha de um inves- 
timento para aposentadoria. А tabela de probabilidade associada seguinte foi construída a partir dos 
dados produzidos. "Importante" significa де a pessoa consultada disse que o nível de risco era 
importante ou muito importante. 


Homens Mulheres Total 


Importante 022. 0,27 0,49 
Мао Importante 0,28 0,23 0,51 
Total 0,50 0,50 1,00 


55. 


56. 


a. Qual é a probabilidade de uma pessoa consultada na pesquisa dizer que o nível de risco é importante? 
b. Qual é a probabilidade de um homem consultado na pesquisa dizer que o nível de risco é importante? 

c. Qual é a probabilidade de uma mulher consultada na pesquisa dizer que o nível de risco é importante? 
d. O nível de risco independe do sexo da pessoa consultada? Por quê? 

e. Às posturas de homens e mulheres diferem quanto ao risco? 


Uma grande empresa de bens de consumo veiculou um anúncio de televisão de um de seus produtos 
de limpeza, Com base em pesquisa, foram atribuídas probabilidades aos seguintes eventos. 


B = pessoas que compraram o produto 
5 = pessoas que se lembram de ter visto o anúncio 
B N S = pessoas que compraram o produto e que se lembram de ter visto o anúncio 

As probabilidades atribuídas foram P(B) = 0,20, P(S} = 0,40 e P(B П 5) = 0,12. 

a. Qual é a probabilidade de uma pessoa comprar o.produto por se lembrar de ter visto o anúncio? 
Ver o anúncio aumenta a probabilidade de a pessoa comprar o produto? No papel de tomador de 
decisões, você recomendaria prosseguir com a anúncio (supondo que o custo seja razoável)? 

b. Suponha que as pessoas que não compram o produto de limpeza dessa empresa compram-no de 
seus concorrentes. Qual seria sua estimativa da fatia de mercado da empresa? Você acredita que 
continuar com o anúncio aumentaria a fatia de mercado da empresa? Por quê? 

с. À empresa experimentou também outro anúncio e atribuiu a ele os valores P(S) = 0,30 e P(B N 5) 
= 0,10. Qual é a P(B | 5) desse outro anúncio? Qual anúncio lhe parece ter maior efeito sobre as 
compras efetuadas pelos clientes? 


A Cooper Realty é uma pequena empresa imobiliária localizada em Albany, Nova York, especializa- 
da principalmente em intermediar a venda de residências. Recentemente, eles se interessaram em 
determinar a probabilidade de uma das residências de sua relação de imóveis ser vendida dentro de 
certo número de dias. Uma análise de vendas da empresa de 800 casas nos anos anteriores forneceu 
os seguintes dados. 
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57. 


58. 


59. 


60. 


Dias de Permanéncia na Lista Até Ser Vendida 
Abaixo de 30 31-90 Acima de 90 Total 


Abaixo de $150.000 50 40 10 100 

.., $150.000-$199.999 20 150 80 250 

Preços de Oferta Inicial 50 099. $250,000 20 280 100 400 
Acima de $250.000 10 30 10 50 

Total 100 500 200 800 


a. Se А for definido como o evento de uma casa permanecer na lista de imóveis mais de 90 dias antes 
de ser vendida, estime a probabilidade de A. 

b. Se B for definido como o evento de o preço de oferta inicial ser abaixo de US$ 150 mil, estime a 
probabilidade de B. 

c. Qual é a probabilidade de A N B? 

d. Supondo que um contrato para intermediar a venda de uma casa acaba de ser assinado, com um 
preço de oferta inicial inferior a US$ 150 mil, qual é a probabilidade de a casa exigir mais de 90 
dias para que a Cooper Realty efetue a venda? 

е. Os eventos А e B são independentes? 


Uma empresa estudou o número de lost-time accidents (LTA)* que ocorrem em sua planta industrial 
em Brownsville, Texas. Os registros históricos mostram que 6% dos empregados sofreram ТТА no 
ano passado. A geréncia acredita que um programa especial de seguranga reduzirá esse tipo de aci- 
dente para 596 durante o ano atual. Além disso, ela estima que 1596 dos empregados que sofreram 
lost-time accidents no ano passado voltarão a sofrê-los no ano atual. 


a. Qual porcentagem dos empregados sofrerá lost-time accidents em ambos os anos? 
b. Qual porcentagem dos empregados sofrerá pelo menos um /ost-time accident durante o período de 
dois anos? 

A equipe de auditoria do IRS — Internal Revenue Service (Departamento da Receita Federal) de 
Dallas, preocupada em identificar declarações do imposto de renda potencialmente fraudulentas, 
acredita que a probabilidade de descobrir uma declaração fraudulenta, na hipótese de a declaração 
conter deduções de contribuições que ultrapassem o padrão do IRS, é de 0,20. Desde que as dedu- 
ções de contribuições não ultrapassem o padrão do IRS, a probabilidade de ocorrência de uma decla- 
ração fraudulenta cai para 0,02. Se 8% de todas as declarações ultrapassarem o padrão do IRS para 
deduções em razão das contribuições efetuadas, qual é a melhor estimativa da porcentagem de decla- 
rações fraudulentas? 


Uma companhia petrolífera comprou os direitos de prospecção de petróleo em uma área territorial no 
Alasca. Estudos geológicos preliminares atribuíram as seguintes probabilidades iniciais: 


P(petróleo de alta qualidade) = 0,50 
P(petróleo de média qualidade) = 0,20 
P(nenhum petróleo) = 0,30 
a. Qual é a probabilidade de encontrarem petróleo? 
b. Depois de perfurarem 60,96 metros no primeiro poço, foi realizado um exame do solo. As proba- 
bilidades de encontrarem um tipo de solo em particular identificado pelo exame são apresentadas 
a seguir: 
P(solo i petróleo de alta qualidade) = 0,20 
P(solo | petróleo de média qualidade) = 0,80 
P(solo | sem petróleo) = 0,20 


Como a empresa deve interpretar o exame do solo? Quais são as probabilidades revisadas e qual é a 
nova probabilidade de encontrarem petróleo? 

Empresas que fazem negócios pela internet fregiientemente podem obter informações de probabili- 
dade sobre visitantes do website a partir de sites visitados anteriormente. O artigo “Internet 
Marketing” (Interfaces, março/abril de 2001) descreveu como os dados de clickstream em sites visi- 


4 NT: Acidente ocupacional ou doença que impede a uma pessoa retornar ao trabalho no dia (ou tumo) seguinte. Literalmente, “um 
acidente que faz perder tempo”. 
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tados poderiam ser usados em conjunto com um esquema de atualização bayesiano para determinar o 
sexo do visitante de um site. A Par Fore criou um site para comercializar equipamentos e vestuário para 
a prática do golfe. A gerência queria que determinada oferta fosse apresentada a visitantes do sexo 
feminino e uma oferta diferente fosse apresentada a visitantes do sexo masculino. A partir de uma 
amostra de visitas anteriores ao website, a gerência soube que 60% dos visitantes da ParFore.com eram 
homens e 40%, mulheres. Чч 


а. Qual é a probabilidade a priori de o próximo visitante do site ser шпа mulher? 

b. Suponha que vocé saiba que o visitante atual da ParFore.com visitou anteriormente o site da Dillard 
€ que é trés vezes mais provável que mulheres visitem o site da Dillard do que homens. Qual é a 
probabilidade revisada de o visitante atual da ParFore.com ser uma mulher? Vocé deve exibir a 

“oferta que atrai mais as visitantes do sexo feminino ou a que atrai mais os visitantes do sexo mas- 
culino? 


Estudo de Caso - Os Juízes do Condado de Hamilton 


Os juízes do Condado de Hamilton examinam milhares de processos por ano. Na imensa maioria das cau- 
sas decididas, o veredicto se mantém. Entretanto, alguns casos interpõem apelação e, dos que interpõem 
apelação, alguns são revertidos. Kristen DelGuzzi, do jornal The Cincinnati Enquirer, realizou um estudo 
dos processos julgados pelos juízes do Condado de Hamilton ao longo de um período de três anos. A 
Tabela 4.8 apresenta os resultados de 182.908 procêssos julgados (resolvidos) pelos 38 juízes da Common 
Pleas Court, da Domestic Relations Court e da Municipal Court. 

Dois dos juízes, Dinkelacker e Hogan, não serviram no mesmo tribunal durante o período de três anos 
inteiro. 

A.finalidade do estudo promovido pelo jornal foi avaliar o desempenho dos juízes. Frequentemente, as 
apelações ocorrem em conseqüéncia de erros cometidos pelos juízes, e o jornal queria saber quais juízes 
realizavam um bom trabalho e quais cometiam demasiados erros. Você é convocado para auxiliar na aná- 
lise dos dados. Use o seu conhecimento das probabilidades e das probabilidades condicionais para ajudar 
a avaliar os juízes. Talvez você também seja capaz de analisar a probabilidade de apelação e de reversão 
de veredictos nos processos encaminhados pelos diferentes tribunais. 


Relatório Administrativo 


Prepare um relatório com sua avaliação dos juízes. Inclua também uma análise da probabilidade da apela- 
ção e de reversão de veredictos nos três tribunais. No mínimo, seu relatório deve incluir o seguinte: 


1. A probabilidade de os processos sofrerem apelação e veredictos serem revertidos nos três diferen- 
tes tribunais. 


2. A probabilidade de um processo sofrer apelação em relação a cada juiz. 
3. A probabilidade de um processo sofrer reversão do veredicto em relação a cada juiz. 
4. A probabilidade de reversão, dada uma apelação, em relação a cada juiz. 


5. Avalie os juízes dentro de cada tribunal. Declare os critérios que usou e apresente o fundamento 
lógico para sua escolha. 
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Tabela 4.8 Total de causas decididas, que sofreram apelação e que tiveram reversão do veredicto nos tri- 
bunais do Condado de Hamilton 


des 
Common Pleas Court ARQUIVO 
DA INTERNET 
Total de Causas Causas que Sofreram Causas que Tiveram 

Juiz Decididas Apelação . Reversão do Veredicto Judge 
Fred Cartolano 3.037 37 2 
Thomas Crush 3.372 19 0 
Patrick Dinkelacker 1.258 44 8 
Timothy Hogan 1.954 60 7 
Robert Kraft 3.138 27 7 
William Mathews 2.264 91 8 
William Morrissey 3,032 21 22 
Norbert Nadel 2.959 31 20 
Arthur Ney. Jr. 3.219 25 4 
Richard Niehaus 3.353 37 16 
Thomas Nurre 3.000 21 6 
John O'Connor 2.969 29 2 
Robert Ruehlman 3.205 45 8 
). Howard Sundermann 955 60 0 
Ann Marie Tracey 3.141 27 3 
Ralph Winkler 3.089 88 6 

Total 43.945 1762 199 


Domestic Relations Court 


Total de Causas Causas que Sofreram Causas que Tiveram 

Juiz Decididas Apelacáo Reversáo do Veredicto 
Penelope Cunningham 2.729 7 ! 
Patrick Dinkelacker 6.001 19 4 
Deborah Gaines 8.799. 48 9 
Ronald Panioto 12.970 32 3 

Total 30.499 106 {7 

Municipal Court 
Total de Causas Causas que Sofreram Causas que Tiveram 

Juiz Decididas Apelação Reversão do Veredicto 
Mike Allen 6.149 43 4 
Nadine Allen 7.812 34 6 
Timothy Black 7.954 41 6 
David Davis 7.736 43 5 
Leslie Isaiah Gaines 5.282 35 13 
Karla Grady 5.253 6 0 
Deidra Hair 2.532 5 0 
Dennis Helmick 7.900 29 5 
Timothy Hogan 2.308 13 2 
James Patrick Kenney 2.798 6 ! 
Joseph Luebbers 4.698 25 8 
William Mallory 8277 38 9 
Melba Marsh 8.219 34 7 
Beth Mattingly 2.971 13 | 
Albert Mestemaker 4.975 28 9 
Mark Painter 2.239 7 3 
Jack Rosen 7.790 4l 13 
Mark Schweikert 5.403 33 6 
David Stockdale 5.371 22 4 
John A. West 2.797 4 2 


© 
+ 


Total 108.464 500 


CAPÍTULO 5 


Distribuições Discretas 
de Probabilidade 


ESTATÍSTICA NA PRÁTICA 


CITIBANK" 
Long Island City, Nova York 


O Citibank, principal subsidiária do Citigroup, Inc., fornece ampla gama de servicos financeiros (por exemplo, 
contas correntes e contas de poupança, empréstimos e hipotecas, serviços de seguros e de investimentos), 
por meio da estrutura estratégica exclusiva para prestar esses serviços, denominada Citibanking. Essa estrutu- 
ra vincula uma identidade de marca sólida, ofertas de produtos consistentes e serviços de qualidade ao clien- 
te por todo o mundo. O Citibanking permite ao cliente gerenciar seu dinheiro a qualquer hora, em qualquer 
lugar e de acordo com sua preferência. Quer necessite poupar para o futuro, quer necessite fazer emprésti- 
mos imediatos, você pode fazer tudo isso no Citibank. 

Os caixas automáticos de última geração do Citibanking, localizados nos Centros Bancários Citicard 
(CBCs), possibilitam aos usuários realizar todos os serviços bancários 24 horas por dia, sete dias por semana. 
Mais de 150 diferentes funções bancárias, que variam de depósitos à gestão de investimentos, podem ser exe- 
cutadas com facilidade. Os caixas automáticos do Citibanking são muito mais que simples máquinas de dinhei- 
ro, a tal ponto que os usuários os usam para 80% de suas transações. 

Cada caixa automático do Citibank opera como um sistema de fila de espera, e os clientes que buscam 
serviços chegam aleatoriamente. Se todos estiverem ocupados, os clientes que chegam esperam em fila. 


* Os autores agradecem a Ms. Stacey Karter, do Citibank, por fornecer esta “Estatística na Prática”, 
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Variáveis aleatórias 
devem assumir 


valores numéricos. 
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Estudos periódicos de capacidade dos caixas são utilizados para analisar o tempo de espera dos clientes e deter- 
minar se caixas adicionais sáo necessárias. 

Os dados coletados pelo Citibank mostraram que as chegadas aleatórias de clientes seguiam urna distribui- 
ção de probabilidade conhecida como distribuição de Poisson. Usando a distribuição de Poisson, o Citibank 
pode calcular probabilidades relativas ao número de clientes que chegam a um caixa durante qualquer período 
e tomar decisóes quanto ao nümero de caixas autornáticos necessários. 

Por exemplo, seja x igual ao número de clientes que chegam durante o período de um minuto, e vamos 
supor que um caixa em particular tenha uma taxa média de chegada de dois clientes por minuto, a tabela seguin- 
te mostra as probabilidades relativas ao número de clientes que chegam durante o período de um minuto. 


Probabilidade 


0,1353 
0,2707 
02707 
0,1804 
0,0902 
5 ou mais 0,0527 


AWUN—O x 


As distribuições de probabilidade discretas, como as usadas pelo Citibank, são o assunto deste capítulo. Além 
da distribuição de Poisson, você aprenderá a respeito das distribuições binomiais e hipergeométricas e como 
elas podem ser usadas para fornecer informações úteis de probabilidade. 


Neste capítulo, continuamos o estudo da probabilidade, introduzindo os conceitos de variáveis aleatórias 
e de distribuições de probabilidade. O foco deste capítulo são as distribuições de probabilidade discretas. 
Serão abordadas de maneira especial três distribuições de probabilidade discretas: a binomial, a de Poisson 
e a hipergeométrica. 


5.1 VARIÁVEIS ALEATÓRIAS 


No Capítulo 4, definimos o conceito de experimento e seus resultados experimentais concomitantes. Uma 
variável aleatória fornece um meio para se descrever resultados experimentais usando-se valores numéricos. 


VARIÁVEL ALEATÓRIA 
Uma variável aleatória é uma descrição numérica do resultado de um experimento. 


Com efeito, uma variável aleatória associa um valor numérico a cada resultado experimental possível. O 
valor numérico da variável aleatória em particular depende do resultado do experimento, Uma variável alea- 
tória pode ser classificada como discreta ou contínua, dependendo dos valores numéricos que ela assume. 


Variáveis Aleatórias Discretas 


Uma variável aleatória que pode assumir tanto um número finito de valores como uma seqüéncia infinita 
de valores — tais como 0, 1, 2, ... — é denominada variável aleatória discreta. Por exemplo, considere o 
experimento de um contador que presta o exame público para perito-contador (certified public accountant 
— CPA). O exame é composto de quatro partes. Podemos definir uma variável aleatória como x = o núme- 
ro de partes em que ele foi aprovado no exame CPA. Trata-se de uma variável aleatória discreta porque ela 
pode assumir o número finito de valores 0, 1, 2, 3 ou 4. 

Como outro exemplo de variável aleatória discreta, considere o experimento de carros que chegam a um 
posto de pedágio. A variável aleatória de interesse é x = o número de carros que chegam durante o período 
de um dia, Os valores possíveis de x vêm da segiiência de números inteiros 0, 1, 2 e assim por diante. 
Portanto, x é uma variável aleatória discreta que assume um dos valores dessa seqüéncia infinita. Embora 
muitos experimentos tenham resultados que são naturalmente descritos por valores numéricos, outros não 
o são. Por exemplo, uma das questões de uma pesquisa pode solicitar a um indivíduo que relembre a men- 
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sagem de um recente comercial de televisão. Esse experimento teria dois resultados possíveis: o indivíduo 
não é capaz de lembrar-se da mensagem e o indivíduo é capaz de recordar-se da mensagem. Podemos ainda 
descrever esses resultados experimentais numericamente definindo-se a variável aleatória discreta x da 
seguinte maneira: seja x = O se o indivíduo não consegue lembrar-se da mensagem, e x = 1 se o indivíduo 
consegue relembrar da mensagem. Os valores numéricos dessa variável aleatória são arbitrários (podería- 
mos usar 5 e 10), mas elas são aceitáveis em termos da definição de variável aleatória — a saber, x é uma 
variável aleatória porque fornece uma descrição numérica do resultado do experimento. 

A Tabela 5.1 fornece exemplos adicionais de variáveis aleatórias discretas. Note que, em cada exemplo, 
a variável aleatória discreta assume um número finito de valores ou uma seqüéncia infinita de valores, tais 
como 0, 1, 2,... Variáveis aleatórias discretas desses tipos são discutidas em detalhe neste capítulo. 


Tabela 5.1 Exemplos de variáveis aleatórias discretas 


Valores Possíveis para 


Experimento Variável Aleatória (x) a Variável Aleatória 
Contatar cinco clientes Número de clientes que colocam 0,12,3,4,5 
um pedido de compra 
Inspecionar um embarque Número de rádios defeituosos 0,1,2,...,49,50 
de 50 rádios 
Operar um restaurante durante Número de clientes 0,315273, 5 
um dia 
Vender um automóvel Género do dliente O se for masculino; + se for feminino 


Variáveis Aleatórias Contínuas 


Uma variável aleatória que pode assumir qualquer valor numérico em um intervalo ou em uma coleção de 
intervalos é chamada variável aleatória contínua. Resultados experimentais que se baseiam em escalas 
de medidas como tempo, peso, distáncia e temperatura podem ser descritos por meio de variáveis aleatórias 
contínuas. Por exemplo, considere o experimento de monitoração das chamadas telefônicas feitas ao escri- 
tório de reclamação de seguros de uma importante companhia de seguros. Suponha que a variável aleatória 
de interesse seja x = o tempo em minutos entre as chamadas consecutivas. Essa variável aleatória pode 
assumir qualquer valor no intervalo x = 0. Realmente, um número infinito de valores é possível para x, 
incluindo valores como 1,26 minuto, 2,751 minutos, 4,3333 minutos e assim por diante. Como outro exem- 
plo, considere um trecho de 144 km da estrada de rodagem interestadual 1-75 ao norte de Atlanta, Geórgia. 
Para um serviço de emergência de ambulâncias localizado em Atlanta, podemos definir a variável aleatória 
como x = o número de quilômetros até o local do próximo acidente de trânsito ao longo desse trecho da 
1-75. Nesse caso, x seria uma variável aleatória contínua que assume qualquer valor no intervalo 0 = х = 
90. Exemplos adicionais de variáveis aleatórias contínuas estão listados na Tabela 5.2. Note que cada exem- 
plo descreve uma variável aleatória que pode assumir qualquer valor em um intervalo de valores. As variá- 
veis aleatórias contínuas e suas distribuições de probabilidade serão o assunto do Capítulo 6. 


Tabela 5.2 Exemplos de variáveis aleatórias contínuas 


Valores Possíveis para 


Experimento Variável Aleatória (x) a Variável Aleatória 
Operar um banco Tempo em minutos entre as chegadas xz0 
dos clientes 
Encher uma lata de refrigerante Quantidade em ml 0=х = 343 
(máx. = 343 mL) 
Construir uma nova biblioteca Porcentagem de conclusão do projeto 0=x= 100 
depois de seis meses 
Testar um novo processo químico А temperatura quando ocorre a reação 65º = х = 100° 


desejada (mín. 65 °С; máx. 100 °С) 
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'NOTAS E COMENTÁRIOS 


Um modo de determinar se uma variável aleatória é discreta ou contínua é pensar nos valores da variá- 
vel aleatória como pontos sobre um segmento de reta. Escolha dois pontos que representam os valores 
da variável aleatória. Se todo o segmento de reta entre os dois pontos também representa possíveis 
valores para a variável aleatória, então a variável aleatória é contínua. 


Exercícios 


Métodos 


1. 


Considere o experimento de jogar uma moeda duas vezes. 


a. Liste os resultados experimentais, 

b. Defina uma variável aleatória que represente o número de coroas que ocorrem nos dois arremessos. 
c. Mostre quai valor a variável aleatória assumiria para cada um dos resultados experimentais. 

d. A variável aleatória é discreta ou contínua? 


2. Considere o experimento de um trabalhador que monta um produto. 

a. Defina uma variável aleatória que represente o tempo necessário em minutos para montar o produto. 

b. Quais valores a variável aleatória pode assumir? 

c. A variável aleatória é discreta ou contínua? 

Aplicações 

3. Três estudantes têm entrevistas programadas no Brookwood Institute com o objetivo de obter empre- 
gos de verão. Em cada caso, a entrevista resultará na oferta de um cargo ou em uma recusa. Os resul- 
tados experimentais são definidos em termos dos resultados das três entrevistas. 

a, Liste os resultados experimentais. 

b. Defina uma variável aleatória que represente o número de ofertas feitas. A variável é discreta ou 
contínua? : 

c. Mostre o valor da variável aleatória correspondente a cada um dos resultados experimentais. 

4. Suponha que saibamos quais são as taxas de hipoteca residencial de 12 instituições de empréstimo da 
Flórida. Suponha que a variável aleatória de interesse seja o número de instituições de empréstimo 
pertencentes a esse grupo que oferecem uma taxa fixa de 8,5% ou menos durante 30 anos. Quais valo- 
„Tes essa variável aleatória pode assumir? u 

5. Para realizar certo tipo de análise sangüínea os técnicos de laboratório precisam levar a efeito dois 
procedimentos. O primeiro procedimento necessita de uma ou duas etapas distintas, e o segundo pro- 
cedimento requer uma, duas ou trés etapas. 

a, Liste os resultados experimentais associados à realização da análise sangüínea. 

b. Se a variável aleatória de interesse for o número total de etapas necessárias para a análise comple- 
ta (ambos os procedimentos), mostre qual valor a variável aleatória assumirá para cada um dos 
resultados experimentais. 

6. Uma série de experimentos e as variáveis aleatórias correspondentes são listados a seguir. Em cada 
caso, identifique os valores que a variável aleatória pode assumir e estabeleça se a variável aleatória 
é discreta ou contínua. 

Experimento Variável aleatória (x) 

a. Fazer um exame com 20 questões Número de questões respondidas corretamente 

b. Observar carros que chegam a um posto de Número de carros que chegam ao posto de pedágio 
pedágio durante uma hora 

c. Fazer a auditoria de 50 declarações de imposto Número de declarações que contêm erros 

d. Observar o trabalho de um empregado Número de horas não produtivas em um dia de trabalho 


de oito horas 
e. Pesar um carregamento de produtos Número de quilos 
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5.2 DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE 


A distribuição de probabilidade de uma variável aleatória descreve como as probabilidades estão distri- 
buídas sobre os valores da variável aleatória. Para uma variável discreta x, a distribuição de probabilidade 
é definida por uma função probabilidade, denotada por f(x). A função probabilidade fornece a probabili- 
dade correspondente a cada um dos valores da variável aleatória. 

Como ilustração de uma variável aleatória discreta e sua distribuição de probabilidade, considere as 
vendas de automóveis na DiCarlo Motors, em Saratoga, Nova York. Nos últimos 300 dias de operação, os 
dados de vendas mostram 54 dias sem vendas de automóveis, 117 dias com um automóvel vendido, 72 
dias com dois automóveis vendidos, 42 dias com três automóveis vendidos, 12 dias com quatro automó- 
veis vendidos e três dias com cinco automóveis vendidos. Suponha que consideremos o experimento de 
selecionar um dia de operação na DiCarlo Motors. Definimos a variável aleatória de interesse como x = 
o número de automóveis vendidos durante um dia. A partir de dados históricos, sabemos que x é uma variá- 
vel aleatória discreta que pode assumir os valores 0, 1, 2, 3, 4 ou 5. Na notação da função probabilidade, 
ДО) fornece a probabilidade de O automóveis vendidos, f(1) fomece a probabilidade de um automóvel ven- 
dido e assim por diante. Uma vez que os dados históricos mostram 54 dos 300 dias com 0, atribuímos o 
valor 54/300 = 0,18 para f(0), indicando que a probabilidade de O automóvel ter sido vendido durante um 
dia é de 0,18. Analogamente, uma vez que 117 de 300 dias tiveram um automóvel vendido, atribuímos o 
valor de 17/300 = 0,39 para (1), indicando que a probabilidade de exatamente um automóvel ter sido ven- 
dido durante um dia é de 0,39. Continuando desse modo para outros valores da variável aleatória, calcu- 
lamos os valores рага f(2), #3), f(4) e f(5), como mostra a Tabela 5.3, a distribuição de probabilidade para 
o número de automóveis vendidos durante um dia na DiCarlo Motors. 

A principal vantagem de definir uma variável aleatória e sua distribuição de probabilidade é que, uma 
vez que a distribuição de probabilidade seja conhecida, torna-se relativamente fácil determinar a probabili- 
dade de uma série de eventos que podem ser do interesse de um tomador de decisões. Por exemplo, usan- 
do a distribuição de probabilidade na DiCarlo Motors, como mostrado na Tabela 5.3, vemos que o número 
mais provável de automóveis vendidos durante um dia é 1, com a probabilidade de (1) = 0,39. Além disso, 
há uma probabilidade f(3) + ДА) + А5) = 0,14 + 0,04 + 0,01 = 0,19 de venderem três automóveis ou 
mais durante um dia. Essas probabilidades, além de outras que um tomador de decisões pode solicitar, for- 
necem a informação que pode auxiliá-lo a entender o processo de venda de automóveis na DiCarlo Motors. 

No desenvolvimento de uma função probabilidade para qualquer variável discreta, as duas condições 


seguintes precisam ser satisfeitas. 
CONDIÇÕES NECESSÁRIAS PARA UMA FUNÇÃO PROBABILIDADE DISCRETA 
Хо) = 0 (5.1) 
Ур) = 1 (5.2) 


А Tabela 5.3 mostra que as probabilidades correspondentes à variável aleatória x satisfazem a condição da 
Equação 5.1; f(x) é maior ou igual a O para todos os valores de x. Além disso, as probabilidades somam 1, 
de modo que a Equação 5.2 está satisfeita. Assim, a função probabilidade da DiCarlo Motors é uma fun- 
ção probabilidade discreta válida. 

Podemos também apresentar graficamente as distribuições de probabilidade. Na Figura 5.1, os valores 
da variável aleatória x para a DiCarlo Motors são mostrados no eixo horizontal e a probabilidade associada 
a esses valores é mostrada no eixo vertical. 

Além de tabelas e gráficos, frequentemente se usa uma expressão matemática para descrever as distri- 
buições de probabilidade, a qual fornece a função probabilidade f(x) para cada valor de x. O exemplo mais 
simples de distribuição de probabilidade discreta apresentado por meio de uma expressão matemática é a 
distribuição uniforme de probabilidade discreta. Sua função probabilidade é definida pela Equação 5.3. 


173 


Essas condições 
são análogas às 
duas exigências 
básicas para 
atribuir 
probabilidades aos 
resultados 
experimentais 
apresentados no 
Capítulo 4. 


174 Estatística Aplicada à Administracáo e Economia 


Tabela 5.3 Distribuição de probabilidade correspondente ao número 
de automóveis vendidos durante um dia na DiCarlo Motors 


x f(x) 
0,18 
0,39 
024 
0.14 
0,04 
0,01 


Total 1,00 


= RUN—O 


Figura 5.1 Representação gráfica da distribuição de probabilidade para o nümero 
de automóveis vendidos durante um dia na DiCarlo Motors 


fo) 


0,40 


o 
tu 
e 


Probabilidade 


Los, 
O 12 3 4 5 


Número de automóveis vendidos durante um dia 


FUNÇÃO PROBABILIDADE DISCRETA UNIFORME 
Јо) = 1n (5.3) 


em que: 
n = o número de valores que a variável aleatória pode assumir 


Por exemplo, considere o experimento de lançar um dado € defina a variável aleatória x como o núme- 
ro que vai surgir. Existem n = 6 valores possíveis para a variável aleatória; x = 1, 2, 3, 4, 5, 6. Assim, a 
função probabilidade para essa variável aleatória discreta uniforme é 


Р) = Ш6 x-12,3,4,5,6 


Os valores possíveis da variável aleatória e as probabilidades correspondentes sáo mostrados a seguir. 


Қ) 
1/6 
146 
1/6 
1/6 
1/6 
1% 


сол c UN — x 
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Como outro exemplo, considere a variável aleatória x com a seguinte distribuição de probabilidade 


discreta. 


x ft) 
| 1/10 
2 2/10 
3 3/10 
4 4/10 


Por exemplo, usando a função probabilidade anterior, vemos que f(2) = 2/10 fornece a probabilidade de 


Essa distribuição de probabilidade pode ser definida pela expressão matemática: 
fo x para x = 1, 2, 3, ou 4 
х) = = 1,2,3, 
10 


Calcular f(x) рага determinado valor da variável aleatória fornecerá а probabilidade correspondente. 


que a variável aleatória assumirá um valor igual a 2. 


As distribuições de probabilidade discretas mais amplamente usadas são, de maneira geral, especifica- 
das por expressões matemáticas. Três casos importantes são a distribuição binomial, a distribuição de 


Poisson e a distribuição hipergeométrica, todas discutidas posteriormente neste capítulo. 


Exercícios 

Métodos 
7. Segue-se a distribuição de probabilidade da variável aleatória x. 

x fto) 

20 0.20 

25 0,15 

30 0,25 

35 0,40 


a. Essa distribuição de probabilidade é válida? Explique. 
b. Qual é a probabilidade de x ser igual a 30? 

c. Qual é a probabilidade de x ser menor ou igual a 25? 
d. Qual é a probabilidade de x ser maior que 30? 


Aplicações 


8. 


Os dados a seguir foram coletados contando-se o número de salas de cirurgia em uso no Hospital 
Geral de Tampa em um período de 20 dias: em três dos dias somente uma sala de cirurgia foi usada, 
em cinco dos dias duas foram usadas, em oito dos dias três foram usadas e em quatro dias todas as 
quatro salas de cirurgia do hospital foram usadas. 


a. Use a abordagem da freqüéncia relativa para construir a distribuição de probabilidade correspon- 
dente ao número de salas de cirurgia em uso em qualquer dia do período. 

b. Desenhe um gráfico da distribuição de probabilidade. 

c. Mostre que sua distribuição de probabilidade satisfaz as condições necessárias a uma distribuição 
de probabilidade discreta válida. 


Nacionalmente, 38% dos estudantes da quarta série do ensino fundamental não conseguem ler um 
livro apropriado à sua faixa etária, Os dados a seguir mostram o número de crianças, por idade, iden- 


- tificadas como estudantes com dificuldade de aprendizagem sob educação especial. A maioria dessas 


crianças tem problemas de leitura que devem ser identificados e corrigidos antes da terceira série. A 
legislação federal vigente nos Estados Unidos não permite que a maioria das crianças receba apoio 
extra de programas de educação especial até que elas se atrasem aproximadamente dois anos na capa- 
cidade de aprendizagem, e isso, tipicamente, significa a terceira série ou mais tarde (USA Today, 6 de 
setembro de 2001). 
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Idade Número de Crianças 
6 37.369 
7 87.436 
8 160.840 
9 239.719 
10 286.719 
i 306.533 
12 310.787 
13 302.604 
14 289.168 


10. 


Suponha que queiramos selecionar uma amostra de crianças identificadas como estudantes com dificul- 

dade de aprendizagem sob educação especial para um programa idealizado para melhorar a capacidade 

de leitura. Seja x uma variável aleatória que indica a idade de uma criança selecionada aleatoriamente. 

a. Use os dados para desenvolver uma distribuição de probabilidade para x. Especifique ós valores 
para a variável aleatória e os valores correspondentes para a função probabilidade f(x). 

b. Desenhe um gráfico da distribuição de probabilidade. 

c. Mostre que a distribuição de probabilidade satisfaz as Equações (5.1) e (5.2). 

A Tabela 5.4 mostra as distribuições de freqüéncia percentuais das pontuações de satisfação no tra- 

balho referentes a uma amostra de executivos seniores de sistemas de informação e gerentes de nível 

médio de sistemas de informação. As pontuações variam do baixo valor 1 (muito insatisfeitos) ao ele- 

vado valor 5 (muito satisfeitos). 


Tabela 5.4 Distribuição de frequência percentual das pontuações de satisfação no trabalho 


referentes a executivos e gerentes de nível médio de sistemas de informação 


Pontuação de Satisfação Executivos Seniores de Gerentes de Nível Médio de 
no Trabalho Sistemas de Informação (%) Sistemas de Informação (%) 
I 5 4 
2 9 10 
3 3 I2 
4 42 |^ 46 
5 


11. 


12. 


41 28 


a. Desenvolva uma distribuição de probabilidade referente à pontuação da satisfação de um executi- 
vo sênior no trabalho. 

b. Desenvolva a distribuição de probabilidade referente à pontuação da satisfação de um gerente 
médio no trabalho. А : 

c. Qual é a probabilidade de um executivo sénior registrar uma LE de satisfação no trabalho 
igual a 4 ou 5? 

d. Qual é a probabilidade de um gerente de nível médio estar muito satisfeito? | 

e. Compare a satisfação global no trabalho dos executivos seniores e dos gerentes de nível médio. 


Um técnico faz manutenção de máquinas de postagem em empresas na região de Phoenix. 
Dependendo do tipo de defeito, uma visita técnica pode demandar 1, 2, 3 ou 4 horas. Os diferentes 
tipos de defeito ocorrem aproximadamente na mesma freqüéncia. 


a. Desenvolva uma distribuição de probabilidade para a duração de uma visita técnica. 


b. Desenhe um gráfico da distribuição de probabilidade. 

c. Mostre que sua distribuição de probabilidade satisfaz as condições necessárias a uma função pro- 
babilidade discreta. 

d. Qual é a probabilidade de a visita técnica demandar três horas? | 

e. Uma visita técnica acabou de chegar, mas o tipo de defeito é desconhecido. São 15h e o técnico 
habitualmente deixa o trabalho às 17h. Qual é a probabilidade de o técnico precisar trabalhar em 
hora extra para consertar a máquina ainda hoje? 


O diretor de admissão do Lakeville Community College avaliou subjetivamente uma distribuição de 
probabilidade para x, equivalente ao número de matriculandos, da seguinte maneira: 
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x ft) 
1.000 0,15 
1.100 020 
1.200 0,30 
1.300 0,25 
1.400 0,10 


а. Essa 6 uma distribuicáo де probabilidade válida? Explique. 
b. Qual é a probabilidade de 1.200 estudantes ou menos se matricularem? 

13. Um psicólogo determinou que o número de sessões necessárias para conquistar a confiança de um 
novo paciente pode ser de 1, 2 ou 3. Seja x uma variável aleatória que indica o número de sessões 
necessárias para conquistar a confiança do paciente. A seguinte função de probabilidade foi proposta. 


Јо) = s para x = 1, 2, ou 3 


а. Essa ё uma funcáo probabilidade válida? Explique. 

b. Qual é a probabilidade de serem necessárias exatamente duas sessões para conquistar a confiança 
do paciente? 

c. Qual é a probabilidade de serem necessárias pelo menos duas sessões para conquistar a confiança 
do paciente? 

14. A tabela seguinte é uma distribuição de probabilidade parcial referente ao lucro projetado da MRA 
Company (x = lucro em milhares de dólares) para o primeiro ano de operação (o valor negativo deno- 
ta um prejuízo). 


x fx) 

—100 0,10 

0 020 

50 0,30 

100 025 

150 0,10 
200 


a. Qual é o valor adequado para (200)? Qual é a sua interpretação desse valor? 
b. Qual é a probabilidade de a MRA ser rentável? 
c. Qual é a probabilidade de a MRA alcançar pelo menos US$ 100 mil? 


5.3 VALOR ESPERADO E VARIÂNCIA 


Valor Esperado 


O valor esperado, ou média, de uma variável aleatória é a medida da posição central da variável aleató- 
ria. A expressão matemática do valor esperado para a variável aleatória discreta x é dada a seguir. 


VALOR ESPERADO DE UMA VARIÁVEL ALEATÓRIA DISCRETA 
E = и = Exf() (5-4) 


Tanto a notação E(x) como и podem ser usadas para denotar o valor esperado de uma variável aleatória. 

A Equação 5.4 mostra que para calcular o valor esperado de uma variável aleatória discreta precisamos 
multiplicar cada um dos valores da variável aleatória pela probabilidade f(x) correspondente e, então, adi- 
cionar os produtos resultantes. Usando o exemplo das vendas de automóveis da DiCarlo Motors da Seção 
5.2, mostramos na Tabela 5.5 os cálculos do valor esperado referentes ao número de automóveis vendidos 
durante um dia. A soma das entradas na coluna xf(x) mostra que o valor esperado é de 1,50 automóvel por 
dia. Sabemos, portanto, que, embora seja possível a realização de 0, 1, 2, 3, 4 ou 5 vendas de automóveis 
em qualquer um dos dias, ao longo do tempo a DiCarlo pode prever a venda de uma média de 1,50 auto- 
móvel por dia. Supondo 30 dias de operação durante um mês, podemos usar o valor esperado de 1,50 para 
prever vendas mensais médias de 30(1,50) = 45 automóveis. 
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Variância 

Não obstante o valor esperado fornecer o valor médio para a variável aleatória, freqüentemente necessita- 
mos de uma medida de variabilidade, ou de dispersão. Tal como usamos a variância no Capítulo 3 para 
sintetizar a variabilidade no conjunto de dados, usamos agora a variância para sintetizar a variabilidade 
nos valores da variável aleatória, A expressão matemática para a variância de variável aleatória discreta é 
apresentada a seguir. : 


VARIÂNCIA DE UMA VARIÁVEL ALEATÓRIA DISCRETA | . 
Уаг(х) = o? = Ух — и) х) (5.5) 


Tabela 5.5 Cálculo do valor esperado para о nümero de automóveis vendidos durante 
um dia na DiCarlo Motors 


x feo) х) 
0 0,18 000,18) = 0.00 
І 0,39 100,39) = 0,39 
2. 0,24 2(0,24) = 0,48 
3 0,14 300p = 0,42 
4 0,04 40,04) = 0,16 
5 0,01 500,01) = 0,05 ` 
1,50 
E) = p= рф)  . 


Tabela 5.6 Cálculo da variância para o número de automóveis vendidos durante um dia na Dicarlo Motors 


x х-н (х – м)? Дх) (х — uyfo) 
0 0—1,50- -1,50 225 0,18 2,25(0,18) — 0,4050 
| | — 1,50 = —0,50 0,25 0,39 0.25(0,39) = 0,0975 
2 2-150- 0,50 0,25 024 0,25(0,24) = 0,0600 
3 3-1,50= 1,50 225 0.14 2,25(0,14) — 0,3150 
4 4-150= 2,50 625 0,04 - 6,25(0,04) = 0,2500 
5 S5—150- 350 12,25 001 12,25(0,01) = 0,1225 
1,2500 


а? = Y(x- ух) 


Como mostra a Equação 5.5, uma parte fundamental da fórmula da variância é о desvio, x — р, que mede 
quão distante um valor em particular da variável aleatória se encontra do valor esperado, ou média, и. No 
cálculo da variância de uma variável aleatória, os desvios são elevados ao quadrado e então ponderados 
pelo valor correspondente da função probabilidade, A soma desses desvios elevados ao quadrado ponde- 
rados para todos os valores da variável aleatória denomina-se variância. As notações Var(x) e o? são ambas 
utilizadas para denotar a variância de uma variável aleatória. 

O cálculo da variância para a distribuição de probabilidade do número de automóveis vendidos duran- 
te um dia na DiCarlo Motors está resumido na Tabela 5.6. Notamos que a variância é 1,25. O desvio 
padrão, o, é definido como a raiz quadrada positiva da variância. Assim, o desvio padrão do número de 
automóveis vendidos durante um dia é . 


o =V1,25= 1,118 
LI 


O desvio padrão é medido nas mesmas unidades que a variável aleatória (o = 1,118 automóvel) e, por- 
tanto, freqüentemente é preferido para descrever a variabilidade de uma variável aleatória. A variância g? 
é medida em unidades elevadas ao quadrado e, desse modo, é mais difícil de ser interpretada. 


Capítulo 5 Distribuições Discretas de Probabilidade 


Exercícios 


Métodos 


15. A tabela seguinte apresenta uma distribuição de probabilidade referente à variável aleatória x. 


x ft) 
3 025 
6 0,50 
9 0,25 


a. Calcule E(x}, o valor esperado de x. 
b. Calcule o2, a variância de x. 
c. Calcule c, o desvio padr&o de x. 


16. A tabela seguinte apresenta uma distribuição de probabilidade referente à variável aleatória y. 


x ft) 
3 025 
4 0,30 
7 0,40 
8 0.10 


a. Calcule E(y). 
b. Calcule Var(y) e o. 


Aplicações 


17. Um serviço voluntário de ambulâncias atende de O a 5 chamadas de serviço em determinado dia. A 


distribuição de probabilidade correspondente ao número de chamadas de serviço é apresentada a 
seguir. 


Número de Chamadas de Serviço Probabilidade Número de Chamadas de Serviço Probabilidade 
0 0,10 3 0,20 
| 0,15 4 0,15 
2 0,30 5 0,10 


18. 


а. Qual é о número esperado de chamadas de serviço? 

b. Qual é a variância no número de chamadas de serviço? Qual é o desvio padrão? 

A American Housing Survey registrou os seguintes dados sobre o número de quartos de dormir em 
casas ocupadas por proprietários e casas ocupadas por locatários em grandes cidades 
(http://www census.gov, 31 de março de 2003). 


Número de Casas (milhares) 


Quartos de Dormir Ocupadas por Locatários Ocupadas por Proprietários 
0 547 23 
| 5.012 541 
2 6.100 3.832 
3 2.644 8.690 
4 ou mais 557 3.783 


a. Defina uma variável aleatória x = o número de quartos de dormir em casas ocupadas por locatá- 
rios e desenvolva uma distribuição de probabilidade para a variável aleatória. (Digamos que x = 4 
represente 4 ou mais quartos de dormir.) 

b. Calcule o valor esperado e a variância do número de quartos de dormir em casas ocupadas por loca- 
tários. 

c. Defina uma variável aleatória y = o número de quartos de dormir em casas ocupadas por proprie- 
tários e desenvolva uma distribuição de probabilidade para a variável aleatória. (Digamos que y = 
4 represente 4 ou mais quartos de dormir.) 

d. Calcule o valor esperado e a variância do número de quartos de dormir em casas ocupadas por pro- 
prietários. 

e. Quais observações você é capaz de fazer a partir de uma comparação do número de quartos de dor- 
mir em casas ocupadas por locatários e casas ocupadas por proprietários? 
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19. 


20. 


A National Basketball Association (NBA) registra uma série de estatísticas para cada time. Duas des- 

sas estatísticas são a porcentagem de field goals! e a porcentagem de lances de três pontos realizados 

pelo time. Durante uma parte da temporada de 2004, os registros de lances dos 29 times da NBA mos- 

travam que a probabilidade de marcarem dois pontos fazendo um field goal era 0,44, e que a proba- 

bilidade de marcarem três pontos fazendo um lance de três pontos era 0,34 (http:/fwww.nba.com, 3 

de janeiro de 2004). 

a. Qual é o valor esperado de um arremesso de dois pontos para esses times? 

b. Qual é o valor esperado de um arremesso de três pontos para esses times? 

c. Se a probabilidade de fazer um arremesso de dois pontos é maior que a probabilidade de fazer um 
arremesso de três pontos, por que os técnicos permitem a alguns jogadores fazerem arremessos de 
três pontos quando têm a oportunidade? Use o valor esperado para explicar sua resposta. 


A distribuição de probabilidade para reclamação de danos sobre seguros de colisão pagos pela 
Newton Automobile Insurance Company é mostrada a seguir. 


Pagamento ($) Probabilidade 
0 0,90 
400 0,04 
1.000 0,03 
2.000 0,01 
4.000 0,01 
6.000 0,01 


21. 


а. Use o pagamento de colisáo esperado para determinar о prémio de seguro de colisáo que possibi- 
litaria à empresa n&o ter lucro nem prejuízo. 

b. A companhia de seguros cobra uma taxa anual de US$ 260 para a cobertura de colisáo. Qual é o 
valor esperado da apólice de seguro contra colisáo para o proprietário da apólice? (Dica: Esse valor 
é o pagamento esperado da companhia menos o custo de cobertura.) Por que o proprietário da apó- 
lice compra uma apólice de colisão com esse valor esperado? 

As seguintes pontuações de satisfação no trabalho referentes a uma amostra de executivos seniores de 

sistemas de informação e de gerentes de nível médio de sistemas de informação variam do baixo valor 

1 (muito insatisfeitos) ao elevado valor 5 (muito satisfeitos). 


Probabilidade 


Pontuação de Satisfação Executivos Seniores de Gerentes de Nível Médio de 
no Trabalho Sistemas de. Informação Sistemas de Informação 
1 0,05 0,04 
2 0,09 0,10 
3 0,03 0,12 
4 042 0,46 
5 0,41 028 


22. 


a. Qual é o valor esperado da pontuação de satisfação no trabalho para os executivos seniores? 

b. Qual é o valor esperado da pontuação de satisfação no trabalho para os gerentes de nível médio? 

c. Calcule a variância das pontuações de satisfação no trabalho para os executivos e.os gerentes de 
nível médio. 

d. Calcule o desvio padrão das pontuações de satisfação no trabalho para ambas as distribuições de 
probabilidade. 

e. Calcule a satisfação global no trabalho dos executivos seniores e dos gerentes de nível médio. 

A demanda pór um produto da Carolina Industries varia muito de mês a mês. A distribuição de pro- 

babilidade na tabela a seguir, baseada nos dados dos últimos dois anos, mostra a demanda mensal da 


empresa. 
Demanda Unitária Probabilidade 
300 А 0,20 
400 0,30 
500 0,35 
600 0,15 


1 NT: Field goal: Arremesso que marca dois pontos, e se for de certa distância, três pontos (basquete). 
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Se a empresa basear os pedidos de compra mensais no valor esperado da demanda mensal, qual deve 
ser o lote de compra mensal da Carolina Industries para esse produto? 

Considere que cada unidade demandada gera US$ 70 de receita e que cada unidade encomendada 
custa US$ 50. Quanto a empresa ganhará ou perderá em um més se vier a colocar um pedido de com- 
pra baseando-se em sua resposta ao item (a) e se a demanda real pelo item for de 300 unidades? 

23. A2002 New York City Housing and Vacancy Survey mostrou um total de 59.324 unidades residen- 
ciais rent-controlled? e 236.263 unidades rent-stabilized? construídas em 1947 ou mais tarde. Para 
essas unidades de aluguel, as distribuições de probabilidade referentes ao número de pessoas que 
moram na unidade são apresentadas a seguir (http://www.census.gov, 12 de janeiro de 2004). 


Número de pessoas Rent-Controlled Rent-Stabilized 
І 0,61 0,4] 
2 0,27 0,30 
3 0,07 0,14 
4 0,04 0,1! 
5 0,01 0,03 
6 0,00 0,0] 


a. Qual é o valor esperado do número de pessoas que moram em cada tipo de unidade? ' 

b. Qual é a variância do número de pessoas que moram em cada tipo de unidade? 

c. Faça algumas comparações entre o número de pessoas que moram em unidades rent-controlled e 
o número de pessoas que moram em unidades rent-stabilized. 


24. АЈ. К. Ryland Computer Company está considerando uma expansão de fábrica que tornará possível 
à empresa começar a produzir um novo tipo de computador. O presidente da empresa precisa deter- 
minar se faz a expansão em média ou em grande escala. Uma incerteza é a demanda do novo produ- 
to, a qual, para propósitos de planejamento, pode ter uma baixa demanda, uma média demanda ou 
uma alta demanda. As estimativas de probabilidades de demandas são 0,20; 0,50; e 0,30, respectiva- 
mente. Se x e y indicam o lucro anual em milhares de dólares, os planejadores da empresa desenvol- 
veram as seguintes previsões de lucro para os projetos de expansão de média e de grande escalas. 


Lucro da Expansão Lucro da Expansão 

de Média Escala de Grande Escala 

x Қ) Й fy) 

Baixa 50 0,20 0 0.20 

Demanda Média 150 0,50 100 0,50 
Elevada 200 0,30 300 0,30 


a. Calcule o valor esperado para o lucro associado às duas alternativas de expansão. Qual decisão é 
preferível para o objetivo de maximizar o lucro esperado? 

b. Calcule a variância para o lucro associado às duas alternativas de expansão. Qual decisão é prefe- 
rível para o objetivo de minimizar o risco ou a incerteza? 


5.4 DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL 


A distribuição de probabilidade binomial é uma distribuição de probabilidade discreta que tem muitas apli- 


cações. Ela está associada a um experimento de múltiplas etapas que chamamos experimento binomial. 


2 NT: Rent-controlled apartment: Para um apartamento ser rent-controlled, o inquilino deve residir nele continuamente desde 1º de 
julho de 1974. Quando um apartamento rent-controlled é desocupado, ele se torna automaticamente rent-stabilized ou sua терша- 


mentação é cancelada (Estados Unidos). 


3 NT: Rent-stabilized apartment: Unidades rent-stabilized são aqueles apartamentos em prédios de seis ou mais unidades construí- 
dos entre 1º de fevereiro de 1947 e 1º de janeiro de 1974. Os inquitinos têm o direito de receber os serviços necessários, ter a reno- 


vação de seus contratos de aluguel e não podem ser despejados a não ser nos termos da lei (Estados Unidos). 
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Um Experimento Binomial 


Um experimento binomial tem as quatro propriedades seguintes: 


PROPRIEDADES DE UM EXPERIMENTO BINOMIAL 


1. O experimento consiste em uma seqüéncia de n ensaios idênticos. 

2. Dois resultados são possíveis em cada ensaio. Referimo-nos a um como um sucesso e ao outro como 
um fracasso. | 

3. А probabilidade de um sucesso, denotado por p, não se modifica de ensaio para ensaio. 
Conseqüentemente, a probabilidade de um fracasso, denotado por 1 — p, n&o se modifica de ensaio 
para ensaio. 

4. Os ensaios sáo independentes. 


Se as propriedades 2, 3 е 4 estáo presentes, dizemos que os ensaios sáo gerados por um processo de 
Bernoulli. Se, além disso, a propriedade 1 está presente, dizemos que temos um experimento binomial. A 
Figura 5.2 retrata uma seqüéncia possível de sucessos e fracassos de um experimento binomial envolven- 
do oito ensaios. 

Em um experimento binomial, nosso interesse é o número de sucessos que ocorrem nos n ensaios. Se 
x denota o número de sucessos que ocorrem nos п ensaios, vemos que x pode assumir os valores de 0, 1, 
2, 3, ..., n. Uma vez que o número de valores é finito, x é uma variável aleatória discreta. A distribuição 
de probabilidade associada a essa variável aleatória é chamada de distribuição de probabilidade bino- 
mial. Por exemplo, considere o experimento de jogar uma moeda cinco vezes e em cada arremesso obser- 
var se a moeda cai com coroa ou com cara voltada para cima. Suponha que estejamos interessados em con- 
tar o número de caras que aparecem nos cinco arremessos. Esse experimento tem as propriedades de um 
experimento binomial? Qual é a variável aleatória de interesse? Observe que: 


1. O experimento consiste em cinco ensaios idênticos; tada ensaio envolve o lançamento de uma 
moeda. 


2. Dois resultados são possíveis para cada ensaio: uma cara ou uma coroa. Podemos designar cara um 
sucesso e coroa um fracasso. 

3. A probabilidade de se obter cara e a probabilidade de se obter coroa são as mesmas para cada 
ensaio, com p =0,5el-p= 0,5. 


4. Os ensaios ou arremessos são independentes porque o resultado de qualquer um dos ensaios não é 
afetado pelo que acontece nos outros ensaios ou arremessos. 


Figura 5.2 Uma sequência possível de sucessos e fracassos para um experimento binomial de oito ensaios 


Propriedade !: О experimento consiste 
em n = 8 ensaios. 


Propriedade 2: Сайа ensaio resulta em 
sucesso (S) ou fracasso (F). 


Ensaios —— | 2 3 4 5 6 7 8 
Resultados ——> S F F 5 S F S S 


Desse modo, as propriedades de um experimento binomial estáo satisfeitas. A variável aleatória de inte- 
resse é x = o número de caras que aparece nos cinco ensaios. Nesse caso, x pode assumir os valores 0, 1, 
2,3,40u 5. 

Como outro exemplo, considere um vendedor de seguros que visita dez famílias selecionadas aleato- 
riamente. O resultado associado a cada visita é classificado como um sucesso se a família comprar uma 
apólice de seguros, e como um fracasso se a família não comprar. Por experiência, o vendedor sabe qué a 
probabilidade de uma família selecionada aleatoriamente comprar uma apólice de seguro é igual a 0,10. 
Verificando as propriedades de um experimento binomial, observamos que: 


Capítulo 5 Distribuições Discretas de Probabilidade 


1. O experimento consiste em dez ensaios idénticos; cada ensaio envolve contatar uma família. 


2. Dois resultados sáo possíveis em cada ensaio: a família compra uma apólice (sucesso) ou a família 
náo compra uma apólice (fracasso). 


3. Considera-se que as probabilidades de uma compra e de uma não-compra são as mesmas para cada 
contato de venda, com p = 0,10 e 1 — p = 0,90. 


4. Os ensaios sáo independentes porque as famílias sáo selecionadas aleatoriamente. 


Como as quatro hipóteses estáo satisfeitas, esse exemplo é um experimento binomial. À variável aleatória 
de interesse é o número de vendas obtidas ao contatar as dez famílias. Nesse caso, x pode assumir os valo- 
res 0, 1, 2, 3, 4, 5, 6,7, 8,9 e 10. 

A propriedade 3 do experimento binomial é chamada hipótese estacionária, e é confundida algumas 
vezes com a propriedade 4, independência dos ensaios. Para ver como elas diferem, considere outra vez o 
caso do vendedor que contata famílias para vender apólices de seguro. Se, no decorrer do dia, o vendedor 
se cansar e perder o entusiasmo, a probabilidade de sucesso (vender uma apólice) pode cair para 0,05, por 
exemplo, lá pela décima ligação. Nesse caso, a propriedade 3 (imutabilidade) não seria satisfeita, e não 
teríamos um experimento binomial. Mesmo que a propriedade 4 se mantivesse — isto é, as decisões de 
compra de cada família fossem tomadas independentemente —, não seria um experimento binomial se a 
propriedade 3 não fosse satisfeita. 

Em aplicações que envolvem experimentos binomiais, uma fórmula matemática especial, denominada 
função de probabilidade binomial, pode ser usada para calcular a probabilidade de x sucessos nos n 
ensaios. Usando os conceitos de probabilidade apresentados no Capítulo 4, mostraremos no contexto de 
um problema ilustrativo como a fórmula pode ser desenvolvida. 


O Problema da Loja de Roupas do Martin 


Consideremos as decisões de compra dos próximos três clientes que entram na loja de roupas do Martin. 
Com base em sua experiência, o gerente da loja estima que a probabilidade de qualquer dos clientes com- 
prar é de 0,30. Qual é a probabilidade de dois dos próximos três clientes realizarem uma compra? 
Usando um diagrama em árvore (Figura 5.3), podemos ver que o experimento de observar os três clien- 
tes, cada um deles tomando uma decisão de compra, tem oito resultados possíveis. Usando $ para denotar 
sucesso (uma compra) e F para denotar fracasso (nenhuma compra), estamos interessados nos resultados 
experimentais que envolvem dois sucessos nos três ensaios (decisões de compra). A seguir, vamos verifi- 
car que o experimento envolvendo a seqüéncia de três decisões de compra pode ser visto como um expe- 
rimento binomial. Verificando as quatro exigências para um experimento binomial, notamos que: 


1. O experimento pode ser descrito como uma seqüéncia de três ensaios idênticos, sendo um ensaio 
para cada um dos três clientes que entrarão na loja. 


2. Dois resultados — o cliente faz uma compra (sucesso) ou o cliente não faz uma compra (fracasso) 
— são possíveis para cada ensaio. 


3. A probabilidade de o cliente vir a fazer uma compra (0,30) ou não fazer uma compra (0,70) é con- 
siderada a mesma para todos os clientes. 


4. A decisão de compra de cada cliente é independente das decisões de outros clientes. 
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Figura 5.3 Diagrama em árvore para o problema da loja de roupas do Martin 


Primeiro 1 — Segundo l Terceiro 1 Resultado 
Cliente ! Cliente l Cliente ! Experimental Valor de x 
1 1 1 
1 | $ (5,5, 5) 3 
і 
! (S, 5, F} 2 
(S Р, 5) 2 
(S F, Р) 
(FS S) 2 
(F, S, F) t 
(F, F, 5) 
(F. F, F) 0 


5 = Compra 
Е = Nenhuma compra 
x = Número de clientes que fazem uma compra 


Portanto, as propriedades de um experimento binomial estão presentes. 
O número de resultados experimentais que resultam em exatamente x sucessos em п ensaios pode ser 
calculado a partir da seguinte fórmula.4 


NÚMERO DE RESULTADOS EXPERIMENTAIS QUE FORNECEM EXATAMENTE X SUCES- 
SOS EM N ENSAIOS 


n n! 
б ЕЕЕ e 
em que 
n! = n(n — Din — 2):-- DA) 
e, por definição, 
0!=1 


Retornemos agora ao experimento da loja de roupas do Martin, envolvendo as decisões de compra toma- 
das por três clientes. 

A Equação 5.6 pode ser usada para determinar o número de resultados experimentais envolvendo duas 
compras; isto é, o número de modos de se obter x = 2 sucessos nos n = 3 ensaios. Da Equação 5.6, temos: 


(5 G) 3! BDA) 6 
x 2] 216-2) AXD 2 


4 Essa fórmula, apresentada no Capítulo 4, determina o número de combinações de п objetos x selecionados a cada vez. Para o expe- 
rimento binomial, essa fórmula combinatória fornece o número de resultados experimentais (seqüéncias de n ensaios) resultantes em 
X sucessos. 


Capítulo 5 Distribuições Discretas de Probabilidade 


A Equação 5.6 mostra que três dos resultados experimentais produzem dois sucessos. Da Figura 5.3, 
vemos que esses trés resultados são denotados por (S, S, F), (S, F, S) е (F, S, S). 

Usando a Equagáo 5.6 para determinar quantos resultados experimentais obtém trés sucessos (com- 
pras) nos três ensaios, obtemos 


() G) 8 3! 3! GOD 6 
X 3 363 — 31 30! 302000) 6 


Da Figura 5.3, vemos que um resultado experimental com três sucessos é identificado por (5, 5, S). 

Sabemos que a Equação (5.6) pode ser usada para determinar o número de resultados experimentais 
que resultam em x sucessos. Mas, se quisermos estabelecer a probabilidade de x sucessos em п ensaios, 
precisamos também conhecer a probabilidade associada a cada um desses resultados experimentais. Uma 
vez que os ensaios de um experimento binomial sáo independentes, podemos simplesmente multiplicar as 
probabilidades associadas a cada resultado experimental para encontrar a probabilidade de uma ѕедйёпсіа 
de sucessos e fracassos em particular. — 

A probabilidade de compras efetuadas pelos primeiros dois clientes e de nenhuma compra pelo tercei- 
ro cliente, denotada por (S, S, F), é dada por 


pp — p) 


Com 0,30 de probabilidade de uma compra em qualquer um dos ensaios, a probabilidade de uma compra 
nos dois primeiros ensaios e de nenhuma compra no terceiro é dada por 


(0,30)(0,30)(0,70) = (0,30)2(0,70) = 0,063 


Dois outros resultados experimentais também resultam em dois sucessos e um fracasso. As probabilidades 
referentes a todas as trés segiiências envolvendo dois sucessos são mostradas a seguir. 


Resultados Experimentais 


Primeiro Segundo Terceiro Resultado Probabilidade do 
Cliente Cliente Cliente Experimenta! ^ Resultado Experimental 
Compra Compra Nenhuma Compra (5, 5, Р) poll — p) = pXI – p) 
= (0,30)4(0,70) = 0,063 
Compra Nenhuma Compra Compra (5, Е, 5) pU — рр = р р) 
= (0,30)0,70) = 0,063 
Nenhuma Compra Compra Compra (F. S, 5) (1 = ppp =pXI —p) 


= (0300.70) = 0,063 


Observe que todos os trés resultados experimentais com dois sucessos tém exatamente a mesma proba- 
bilidade. Essa observação se mantém como regra. Em qualquer experimento binomial todas as seqüéncias 
de resultados de ensaio que produzem x sucessos em n ensaios têm a mesma probabilidade de ocorrência. 
A probabilidade de cada sequência de ensaios produzir x sucessos em n ensaios é apresentada a seguir. 


Probabilidade de uma seqüéncia : 
de resultados de ensaio em particular = рҷ1 — p)®—*) (5.7) 
com x sucessos em л ensaios 


Em relação à loja de roupas do Martin, essa fórmula mostra que qualquer resultado experimental com dois 
sucessos tem a probabilidade p?(1 ~ p)8 -2 = p2(1 — p)! = (0,30)2(0,70)! = 0,063. 

Como a Equação 5.6 mostra o número de resultados em um experimento binomial com x sucessos e a 
Equação 5.7 fornece a probabilidade referente a cada segiiência envolvendo x sucessos, combinamos as 
Equações 5.6 e 5.7 para obter a seguinte função probabilidade binomial. 
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FUNÇÃO PROBABILIDADE BINOMIAL 


fe) = (Pera - p 58) 
em que 
fx) = aprobabilidade de x sucessos em n ensaios 

n = о número de ensaios 
(" ) _ n! 

x) Хп)! 

p = aprobabilidade de sucesso em qualquer dos ensaios 

1-р = a probabilidade de um fracasso em qualquer dos ensaios 


No exemplo da loja de roupas do Martin, vamos calcular a probabilidade de nenhum cliente fazer uma 
compra, exatamente um cliente fazer uma compra, exatamente dois clientes fazerem uma compra e todos 
os três clientes fazerem uma compra. Os cálculos estão sintetizados na Tabela 5.7, a qual fornece a distri- 
buição de probabilidade do número de clientes que fazem uma compra. A Figura 5.4 corresponde a um 


gráfico dessa distribuição de probabilidade. 


A função probabilidade binomial pode ser aplicada a qualquer experimento binomial. Se estamos con- 
vencidos de que uma situação exibe as propriedades de um experimento binomial, e se conhecemos os valo- 


res de n e p, podemos usar a Equação 5.8 para calcular a probabilidade de x sucessos nos n ensaios. 


Tabela 5.7 Distribuição de probabilidade para o número de clientes que fazem uma compra 


Xx 


0 


fi) 

án (0300.70? = 0,343 
3 
Ta 030 0708 = 0,441 
3 
d (030/070) = 0,189 
3 
зы (0300700 = 0027 

1,000 


Se considerarmos variações no experimento da loja de roupas do Martin, como dez clientes entrando 
na loja em vez de três, a função de probabilidade binomial dada pela Equação 5.8 ainda é aplicável. 
Suponha termos um experimento binomial com n = 10, x = 4 e p = 0,30. A probabilidade de realizarmos 


exatamente quatro vendas para dez clientes que entram na loja é 


КА) = 1010, 30)4(0,70)6 = 0,2001 


Capítulo 5 Distribuições Discretas de Probabilidade 


Figura 5.4 Representação gráfica da distribuição de probabilidade para o número de clientes 
que fazem uma compra 


ғо) 


0,50 L 


Probabilidade 


0 | 2 3 


Nümero de Clientes que Fazem uma Compra 


Usando Tabelas de Probabilidades Binomiais 


Foram desenvolvidas tabelas que dão a probabilidade de x sucessos em n ensaios para um experimento 
binomial. Geralmente essas tabelas são fáceis de usar e mais rápidas do que a Equação 5.8. A Tabela 5 do 
Apêndice B constitui uma dessas tabelas de probabilidades binomiais. Uma parte dessa tabela é apresen- 
tada na Tabela 5.8. Para usar essa tabela, precisamos especificar os valores de п, p e x do experimento bino- 
mial de interesse. No exemplo apresentado anteriormente da Tabela 5.8, notamos que a probabilidade de 
х = 3 sucessos em um experimento binomial com п = 10 e p = 0,40 é igual a 0,2150. Você pode usar a 
Equação 5.8 para verificar se viria a obter a mesma resposta se usasse a função de probabilidade binomial 
diretamente. 

Vamos agora usar a Tabela 5.8 para verificar a probabilidade de quatro sucessos em dez ensaios para 
o problema da loja de roupas do Martin. Observe que o valor de f(4) = 0,2001 pode ser lido diretamente 
na tabela de probabilidades binomiais, сот n = 10, x = 4e p = 0,30. 

Мао obstante as tabelas de probabilidades binomiais serem relativamente fáceis de usar, é impossível 
haver tabelas que mostrem todos os valores possíveis de п e de p que possam ser encontrados em um expe- 
rimento binomial. No entanto, com as calculadoras modernas, não é difícil usar a Equação 5.8 para calcu- 
lar a probabilidade desejada, especialmente se o número de ensaios não for grande. Nos exercícios, você 
deve praticar o uso da Equação 5.8 para calcular as probabilidades binomiais, a menos que o problema 
solicite especificamente que você use a tabela de probabilidade binomial. 

Pacotes de software de estatística, tais como o Minitab, e pacotes de planilhas eletrônicas, como o 
Excel, também oferecem a capacidade de calcular probabilidades binomiais. Considere o exemplo da loja 
de roupas do Martin com n = 10 e p = 0,30. A Figura 5.5 exibe as probabilidades binomiais geradas pelo 
Minitab para todos os valores possíveis de x. Observe que esses valores são os mesmos que aqueles encon- 
trados na coluna p = 0,30 da Tabela 5.8. O Apêndice 5.1 apresenta um procedimento passo a passo do uso 
do Minitab para gerar o resultado apresentado na Figura 5.5. O Apêndice 5.2 descreve como o Excel pode 
ser usado para calcular probabilidades binomiais. 
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Com as modernas 
calculadoras, essas 
tabelas são 
praticamente 
desnecessárias. É 
fácil calcular a 
Equação 5.8 
diretamente, 
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Tabela 5.8 Valores selecionados da tabela de probabilidades binomiais 
Exemplo: n = 10, х = 3,р = 0,40; f(3) = 0,2150 


р 
0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 
0.6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020 
0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176 
0.0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703 
0.0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641 
0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,246] 


0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461 
0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641 
0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703 
0,0000 0,0000 0,0000 0,0000 0,000! 0,0004 0,0013 0,0035 0,0083 0,0176 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020 


0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010 
0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098 
0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439 
0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172 
0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051 


0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461 
0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051 
0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172 
0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 


no 


o 
© хо сомол AWN- O омодаи AWUN—O х 


Valor Esperado e Variáncia da Distribuição Binomial 


Na Seção 5.3, apresentamos fórmulas para calcular o valor esperado e a variância de uma variável aleató- 
ria discreta. No caso especial em que a variável aleatória tem uma distribuição binomial com um número 
conhecido de n ensaios e uma probabilidade conhecida de p sucessos, as fórmulas gerais do valor espera- 
do e variância podem ser simplificadas: Os resultados são apresentados a seguir. 


VALOR ESPERADO E VARIÂNCIA DA DISTRIBUIÇÃO BINOMIAL 
Eœ) =p = np (5.9) 


Var(x) = o? = np(1 — p) (5.10) 


Figura 5.5 Resuitados do Minitab apresentam as probabilidades binomiais relativas ao problema da loja de 
roupas do Martin 


x P(X-x) 
0,00 "' 0,0282 
1,00 0,1211 
2,00 0,2335 
3,00 0,2668 
4,00 0,2001 
5,00 0,1029 
6,00 0,0368 
7,00 0,0090 
8,00 0,0014 
9,00 0,0001 


10,00 0,0000 
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Para o problema com trés clientes da loja de roupas do Martin, podemos usar a Equação 5.9 para cal- 
cular o námero esperado de clientes que faráo uma compra. 


Е(х) = np = 3(0,30) = 0,9 


Suponha que para o próximo més a loja de roupas do Martin preveja que mil clientes entrar&o na loja. 
Qual é o número esperado de clientes que farão uma compra? A resposta é и = np = (1.000)(0,3) = 300. 
Assim, para aumentar o número esperado de vendas, Martin precisa convencer mais clientes a entrar na 
loja e/ou, de algum modo, aumentar a probabilidade de um cliente individual qualquer fazer uma compra 
depois de entrar. 

Para o problema com trés clientes da loja de roupas do Martin, notamos que a variáncia e o desvio 
padrão do número de clientes que fazem uma compra são: 


о? = np(1 — р) = 3(0,3X0,7) = 0,63 
о = 40,63 = 0,79 
Em relação aos mil clientes seguintes que entram na loja, a variância e o desvio padrão do número de 
clientes que farão uma compra são 
о? = np(1 — р) = 1.000 (0,3Y(0,7) = 210 
о = 210 = 14,49 


NOTAS E COMENTÁRIOS 


1. As tabelas binomiais do Apêndice B mostram valores de p somente até p = 0,50 inclusive. Poderia 
parecer que tais tabelas não podem ser usadas quando a probabilidade de sucesso ultrapassa p = 0,50. 
Entretanto, elas podem ser empregadas, notando-se que a probabilidade de n — x fracassos é também a 
probabilidade de x sucessos. Quando a probabilidade de sucesso é maior que p = 0,50, podemos, em 
substituição, calcular a probabilidade de п — x fracassos. A probabilidade de fracasso, 1 — p, será menor 
que 0,50 quando p > 0,50. 


2. Algumas fontes apresentam tabelas binomiais em forma cumulativa, Ao usarmos tais tabelas precisa- 
mos fazer uma subtração para encontrar a probabilidade de x sucessos em л ensaios. Por exemplo, f(2) 
= Р(х x 2)- Р(х x 1). Nossas tabelas fornecem essas probabilidades diretamente. Para calcular pro- 
babilidades cumulativas usando nossas tabelas, simplesmente somamos as probabilidades individuais. 
Por exemplo, para calcular Р(х = 2) usando nossas tabelas, somamos f(0) + f(1) + Д2). 


Exercícios 


Métodos 


25. Considere um experimento binomial com dois ensaios e p — 0,4. 
a. Desenhe um diagrama em árvore desse experimento (ver a Figura 5.3). 
b. Calcule a probabilidade de um sucesso, f(1). 
c. Calcule f(0). 
d. Calcule f(2). 
е. Encontre a probabilidade de pelo menos um sucesso. 
f. Encontre o valor esperado, a variáncia e o desvio padráo. 


26. Considere um experimento binomial com n — 10 e p — 0,10. 


a. Calcule f(0). 

b. Calcule f(2). 

c. Calcule Р(х = 2). 
d. Calcule Р(х > 1). 
e. Calcule E(x). 

f. Calcule Var(x) e o. 
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27. 


Considere um experimento binomial com л = 20 e p = 0,70. 


a. Calcule f(12). 
b. Calcule f(16). 
c. Calcule Р(х > 16). 
d. Calcule Р(х = 15). 
e. Calcule E(x). 
f. Calcule Var(x) e о. 


Aplicacóes 


28. 


29. 


Uma pesquisa de opinião realizada pela Harris Interactive para à InterContinental Hotels & Resorts 
perguntou aos entrevistados: “Ao realizar viagens' internacionais, você se aventura sozinho para 
conhecer a cultura local ou se fixa ao seu próprio grupo e itinerários turísticos?” A pesquisa desco- 
briu que 23% dos entrevistados se prendem ao seu grupo turístico (USA Today, 21 de janeiro de 
2004). 


a. Em uma amostra de seis viajantes internacionais, qual é a probabilidade de dois se prenderem ao 
seu próprio grupo turístico? 

b. Em uma amostra de seis viajantes internacionais, qual é a probabilidade de pelo menos duas pes- 
soas se prenderem ao seu próprio grupo turístico? 

c. Em uma amostra de dez viajantes internacionais, qual é a probabilidade de nenhum se prender ao 
seu próprio grupo turístico? 

De acordo com uma pesquisa de opinião realizada pela Business Week/Harris Poll entre 1.035 adul- 

tos, 40% dos entrevistados concordaram fortemente com a proposição de que os negócios têm muita 

influência sobre o estilo de vida dos norte-americanos (Business Week, 11 de setembro de 2000). 

Considere essa porcentagem como representativa da população norte-americana. Em uma amostra de 

20 indivíduos, tomada em determinado instante da população norte-americana, qual é a probabilida- 

de de pelo menos cinco indivíduos acharem que os negócios têm muito mais influência sobre o esti- 

lo de vida norte-americano? : 


30. Quando uma máquina nova funciona adequadamente, somente 3% dos itens produzidos apresentam 


31, 


32. 


defeitos. Suponha escolhermos aleatoriamente duas peças produzidas na máguina e estarmos interes- 
sados no número de peças defeituosas encontradas. 


a. Descreva as condições sob as quais essa situação seria um experimento binomial. 

b. Desenhe um diagrama em árvore similar à Figura 5.3, ilustrando esse problema como um experi- 
mento de dois ensaios. К 

с. Quantos resultados experimentais resultam em encontrarmos exatamente um defeito? 

d, Calcule as probabilidades de não encontrarmos defeitos, encontrarmos exatamente um defeito e 
encontrarmos dois defeitos. 


Nove por cento dos estudantes universitários portam cartões de crédito com limites maiores que 
US$ 7 mil (Reader's Digest, julho de 2002). Suponha que dez estudantes universitários sejam esco- 
lhidos aleatoriamente para serem entrevistados acerca do uso do cartão de crédito. 


a. А escolha dos dez estudantes é um experimento binomial? Explique. ` 

b. Qual é a probabilidade de dois dos estudantes terem um limite de crédito maior que US$ 7 mil? 
c. Qual é a probabilidade de nenhum ter limite de crédito maior que US$ 7 mil? 

d. Qual é a probabilidade de pelo menos três terem limites de crédito maiores que US$ 7 mil? 


Os sistemas militares de radar e de mísseis são concebidos para um país precaver-se de ataques ini- 
migos. Uma questão de confiabilidade é se um sistema de detecção será capaz de identificar um ata- 
que e disparar um alarme. Considere que determinado sistema de detecção tenha uma probabilidade 
de 0,90 de detectar um ataque de mísseis. Use a distribuição de probabilidade binomial para respon- 
der às seguintes questões: 


a. Qual é a probabilidade de um único sistema de detecção detectar um ataque? 

b. Se dois sistemas de detecção estão instalados na mesma área e operam independentemente, qual é 
a probabilidade de pelo menos um dos sistemas detectar o ataque? 

c. Se três sistemas estão instalados, qual é a probabilidade de que pelo menos um dos sistemas detec- 
tar o ataque? 

d. Você recomendaria o uso de múltiplos sistemas de detecção? Explique. 


Capítulo 5 Distribuições Discretas de Probabilidade 


33. Cinqüenta por cento dos norte-americanos acreditavam que o país se encontrava em recessão, não 
obstante, tecnicamente, a economia não apresentar dois semestres seguidos de crescimento negativo 
(Business Week, 30 de julho de 2001). Em relação a uma amostra de 20 norte-americanos, faça os 
seguintes cálculos. 


a. Calcule a probabilidade de exatamente 12 pessoas acreditarem que o país se encontrava em recessão. 

b. Calcule a probabilidade de não mais que cinco pessoas acreditarem que o país se encontrava em 
recessão. 

c. Quantos pessoas você acha que diriam que o país se encontrava em recessão? 

d. Calcule a variância e o desvio padrão do número de pessoas que acreditavam que o país se encon- 
trava em recessão? 


34. Quarenta por cento das pessoas que viajam a negócios portam um telefone celular ou um laptop (USA 
Today, 12 de setembro de 2000). Em relação a uma amostra de 15 pessoas que viajam a negócios, 
faça os seguintes cálculos. 


a. Calcule a probabilidade de três dos viajantes portarem um telefone celular ou um laptop. 
b. Calcule a probabilidade de 12 dos viajantes não portarem telefone celular nem laptop. 
c. Calcule a probabilidade de pelo menos três dos viajantes portarem um telefone celular ou um laptop. 


35. Uma universidade descobriu que 20% dos seus estudantes saem sem concluir o curso introdutório de 
estatística. Considere que 20 estudantes tenham se matriculado para o curso. 


a. Calcule a probabilidade de dois ou menos desistirem. 

b. Calcule a probabilidade de exatamente quatro desistirem. 
c. Calcule a probabilidade de mais de três desistirem. 

d. Calcule o número esperado de desistências. 


36. Para o caso especial de uma variável aleatória binomial, estabelecemos que a variância poderia ser 
calculada por meio da fórmula ©? = np(1 — p). Em relação ao problema da loja de roupas do Martin, 
considerando п = 3 e p = 0,3, encontramos 02 = np(1 — p) = 3(0,3X0,7) = 0,63. Use a definição 
geral de variância de uma variável aleatória discreta dada pela Equação 5.5 e as probabilidades apre- 
sentadas na Tabela 5.7 para verificar se a variância é realmente 0,63. 


37. Setenta e dois por cento dos norte-americanos têm acesso on-line (CNBC, 3 de dezembro de 2001). 
Em uma amostra aleatória de 30 pessoas, qual é o número esperado de pessoas com acesso on-line? 
Qual é a variância e o desvio padrão? 


5.5 DISTRIBUIÇÃO DE POISSON 


Nesta seção, consideraremos uma variável aleatória discreta que muitas vezes é útil para calcular o núme- 
ro de ocorrências ao longo de um intervalo de tempo ou espaço específicos. Por exemplo, a variável alea- 
tória de interesse pode ser o número de carros que chegam a um lava-rápido em uma hora, o número de 
reparos necessários em 16 quilômetros de uma rodovia ou o número de vazamentos em 160 quilômetros 
de tubulação. Se as duas propriedades seguintes forem satisfeitas, o número de ocorrências será uma variá- 
vel aleatória descrita pela função probabilidade de Poisson. 


PROPRIEDADES DE UM EXPERIMENTO DE POISSON 


1. A probabilidade de uma ocorrência é a mesma para dois intervalos quaisquer de igual comprimento. 


2. A ocorrência ou não-ocorrência em determinado intervalo é independente da ocorrência ou não- 
ocorrência em outro intervalo. 
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A distribuição de 
probabilidade 

de Poisson 
frequentemente é 
usada para traçar 
um modelo de 
chegadas aleatórias 
em situações que 
recorrem a filas de 
espera. 
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Siméon Poisson 
lecionou 
matemática na 
Ecole 
Polytechnique de 
Paris, de 1802 а 
1808. Em 1837, 
ele publicou uma 
Obra intitulada 
Pesquisa Sobre a 
Probabilidade de 
Veredictos Civis e 
Criminais, a qual 
inclui uma 
discussão daquilo 
que mais tarde 
passaria a ser 
conhecido como 
distribuição de 
Poisson. 


À Bell Labs utiliza a 
distribuição de 
Poisson para traçar 
um modelo da 
chegada de 
chamadas 
telefônicas. 


Uma propriedade 
da distribuição de 
Poisson é que a 
média e a variância 
são iguais, 
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A função probabilidade de Poisson é definida pela Equação (5.11). 


FUNÇÃO DE PROBABILIDADE DE POISSON 


D 
fo) = (511) 
xi 
em que 
fx) = aprobabilidade de x ocorrências em um intervalo 
и = valor esperado, ou número médio, de ocorrências 
e = 2,71828 


Antes de considerarmos um exemplo específico para verificar como a distribuição de Poisson pode ser 
aplicada, observe que o número de ocorrências, x, não tem limites máximos. Ela é uma variável aleatória 
discreta que pode assumir uma sequência infinita de valores (x = 0, 1, 2, ...). 


Um Exemplo Envolvendo Intervalos de Tempo 


Suponha que estejamos interessados no número de carros que chegam a um caixa automático drive-thru 
de um banco durante um período de 15 minutos nas manhãs de fins de semana. Se considerarmos que a 
probabilidade de um carro chegar é a mesma para dois períodos quaisquer de igual duração e que o fato 
de carros chegarem ou não chegarem em qualquer período é independente da chegada ou não-chegada de 
outro em qualquer outro período, a função probabilidade de Poisson é aplicável. Considere que essas hipó- 
teses sejam satisfeitas e que a análise dos dados históricos mostre que o número médio de carros que che- 
gam no período de 15 minutos é 10; sendo assim, aplica-se a seguinte função probabilidade: 


10%" 10 


x! 


Јо) = 


A variável aleatória nesse caso é x = o número de carros que chegam em um período de 15 minutos 
qualquer. 

` Se a gerência quisesse saber a probabilidade de exatamente cinco carros chegarem em 15 minutos, 
definiríamos x = 5 e, desse modo, obteríamos 


Probabilidade de exatamente -gq5- 103g 19 
5 carros chegarem em 15 minutos 5! 


= 0,0378 


Embora essa probabilidade tenha sido determinada calculando-se a função probabilidade сот и = 10 e x 
= 5, muitas vezes é mais fácil consultar uma tabela para verificar a distribuição de Poisson. Uma tabela 
fornece probabilidades para valores específicos de x e de p. Incluímos esse tipo de tabela no Apéndice В 
com o título de Tabela 7. Por conveniência, reproduzimos parte dessa tabelà com o título de Tabela 5.9. 
Observe que para usarmos a tabela de probabilidades de Poisson precisamos conhecer somente os valores 
de x e de p. Da Tabela 5.9, sabemos que a probabilidade de chegarem cinco carros em um período de 15 
minutos é calculada encontrando-se o valor na linha da tabela correspondente a x = 5 e a coluna da tabe- 
la correspondente a = 10. Portanto, obtemos f(5) = 0,0378. 

No exemplo anterior, a média da distribuição de Poisson é = 10 carros que chegam por período de 
15 minutos. Uma propriedade da distribuição de Poisson é que a média da distribuição e a variância da dis- 
tribuição são iguais. Sendo assim; a variância do número de carros que chegam durante períodos de 15 
minutos é o = 10. O desvio padrão é o = Үзө = 3,16. 

Nossa ilustração envolve um período de 15 minutos, mas outros períodos podem ser usados. Suponha que 
queiramos computar a probabilidade de um carro chegar em um período de trés minutos. Uma vez que 10 é 
o número esperado de carros que chegam em um período de 15 minutos, observamos que 10/15 = 2/3 é o 
número esperado de carros que chegam em um período de um minuto e que (2/3)(3 minutos) = 2 é o núme- 
ro esperado de carros que chegam em um período de três minutos. Assim, a probabilidade de x carros che- 
garem em um período de três minutos, com и = 2, é dada pela seguinte função probabilidade de Poisson: 


27e? 


xt 


fo = 
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Tabela 5.9 Valores selecionados de tabelas de probabilidade de Poisson 
Exemplo: и = 10, x = 5; f(5) = 0,0378 


u 
9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8 9,9 10 


0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0000 
0,0010 0,0009 0,0009 0,0008 0,0007 0,0007 0,0006 0,0005 0,0005 0,0005 
0,0046 0,0043 0,0040 0,0037 0,0034 0,0031 0,0029 0,0027 0,0025 0,0023 
0,0140 0,0131 00123 0,0115 0,0107 0,0100 0,0093 0,0087 0,0081 0,0076 
00319 0,0302 0,0285 0,0269 0,0254 0,0240 0,0226 0,0213 0,0201 0,0189 
0,0581 0,0555 0,0530 0,0506 0,0483 0,0460 00439 0,0418 0,0398 0,0378 
0,0881 0,0851 0,0822 0,0793 0,0764 0,0736 0,0709 0,0682 0,0656 0,063 
0,1145 0,1118 0,1091 0,1064 0,1037 0,1010 0,0982 0,0955 0,0928 0,090 
0,1302 0,1286 0,1269 0,1251 0,1232 0,1212 0,1191 0,1170 0,1148 0,1126 
0,1317 0,1315 0,1311 0,1306 0,1300 0,1293 0,1284 0,1274 0,1263 0,125 
0,1198 0,1210 0,1219 0,1228 0,1235 0,1241 0,1245 0,1249 0,1250 0,125 
0,0991 0,1012 0,1031 0,1049 0,1067 0,1083 0,1098 0,1112 0,1125 0,1137 
0,0752 0,0776 0,0799 0,0822 0,0844 0,0866 0,0888 0,0908 0,0928 0,0948 
0,0526 0,0549 0,0572 0,0594 0,0617 0,0640 0,0662 0,0685 0,0707 0,0729 
0,0342 0,0361 0,0380 0,0399 0,0419 0,0439 0,0459 0,0479 0,0500 0,052 
0,0208 0,0221 0,0235 0,0250 0,0265 0,0281 0,0297 0,0313 0,0330 0,0347 
0,0118 0,0127 0,0137 0,0147 0,0157 0,0168 0,0180 0,0192 0,0204 0,0217 
0,0063 0,0069 0,0075 0,0081 0.0088 0,0095 0,0103 0,0111 0,0119 0,0128 
0,0032 0,0035 0,0039 0,0042 0,0046 0,0051 0,0055 0,0060 0,0065 0,007 
0,0015 0,0017 0,0019 0,0021 0,0023 0,0026 0,0028 0,0031 0,0034 0,0037 
0,0007 0,0008 0,0009 0,0010 0,0011 0,0012 0,0014 0,0015 0,0017 0,0019 
0,0003 0,0003 0,0004 0,0004 0,0005 0,0006 0,0006 0,0007 0,0008 0,0009 
0,0001 0000! 0,0002 0,0002 0,0002 0,0002 0,0003 0,0003 | 0,0004 0,0004 
0,0000 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002 0,0002 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,000! 0,000! 0,0001 


ю—————————— 
© о со чои к ого — охо оу ол шю—о * 


VENN 
ком = 


А probabilidade de um carro chegar em um período de trés minutos é calculada da seguinte maneira: 
1272 


2 
= Қ) = 5 = 0,2707 


Probabilidade de exatamente 
1 carro chegar em 3 minutos 


Calculamos anteriormente a probabilidade de cinco carros chegarem em um período de 15 minutos; foi 
0,0378. Observe que a probabilidade de um carro chegar em um período de trés minutos (0,2707) nào é a 
mesma. Quando se calcula uma probabilidade de Poisson para um intervalo de tempo diferente, devemos 
primeiramente converter a taxa média de chegada para o período de interesse e depois calcular a probabi- 
lidade. 


Um Exemplo Envolvendo Intervalos de Comprimento ou de Distância 


Vamos ilustrar uma aplicação que não envolve intervalos de tempo na qual a distribuição de probabilida- 
de de Poisson é útil. Suponha estarmos preocupados com a ocorrência de defeitos importantes em uma 
rodovia um mês depois do recapeamento. Vamos supor que a probabilidade de um defeito seja a mesma 
em dois intervalos quaisquer de igual extensão na rodovia e que a ocorrência ou não-ocorência de um 
defeito em determinado intervalo seja independente da ocorrência ou não-ocorrência de um defeito em 
outro intervalo qualquer. Assim, a distribuição de probabilidade de Poisson pode ser aplicada. 

Suponha que saibamos que defeitos importantes ocorrem um mês depois do recapeamento à taxa média 
de dois defeitos por quilômetro. Vamos encontrar a probabilidade de não haver nenhum defeito importante 
em um trecho de três quilômetros, em especial, na rodovia. Como estamos interessados em um intervalo 
com uma extensão de três quilômetros, и = (2 defeitos/quilómetro)(3 quilômetros) = 6 representa o núme- 
ro esperado de defeitos importantes no trecho de três quilômetros da rodovia. Usando a Equação 5.11, 
observamos que a probabilidade de não-ocorrência de defeitos importantes é RO) = 60 e 5/0! = 0,0025. 
Assim, é improvável que nenhum defeito importante ocorra no trecho de três quilômetros. Realmente, esse 
exemplo indica uma probabilidade de 1 — 0,0025 = 0,9975 de pelo menos um defeito importante ocorrer 
em um trecho da rodovia. 
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Exercícios 


Métodos 


38. 


39. 


Considere uma distribuição de Poisson com p = 3. 


a. Escreva a fungáo probabilidade de Poisson apropriada. 
b. Encontre f(2). 

c. Encontre f(1). 

d. Encontre Р(х > 2). 


Considere uma distribuição de Poisson com um número médio de duas ocorrências por período. 


а. Escreva a função probabilidade de Poisson apropriada. 

b. Qual é o número esperado de ocorrências em três períodos? 

c. Escreva a função probabilidade de Poisson apropriada para determinar a probabilidade de x ocor- 
rências em três períodos. 

d. Encontre a probabilidade de duas ocorrências em um período. 

e. Encontre a probabilidade de seis ocorrências em três períodos. 

f. Encontre a probabilidade de cinco ocorrências em dois períodos. 


Aplicações 


40. 


41. 


42. 


43. 


Chamadas telefônicas são recebidas à taxa de 48 por hora no balcão de reservas da Regional Airways. 


a. Calcule a probabilidade de receberem trés chamadas em um intervalo de tempo de cinco minutos. 

b. Calcule a probabilidade de receberem exatamente dez chamadas em 15 minutos. 

c. Suponha não haver nenhuma chamada em espera no momento. Se o recepcionista demora cinco 
minutos para completar a chamada atual, quantas ligações você acha que permanecerão em espera 
nesse tempo? Qual é a probabilidade de não haver nenhuma ligação em espera? 

d. Se nenhuma chamada está em processamento neste momento, qual é a probabilidade de o recep- 
cionista ter três minutos de tempo pessoal sem ser interrompido? 


Durante o período em que uma universidade local recebe inscrições por telefone, as chamadas tele- 
fônicas são recebidas a uma taxa de uma ligação a cada dois minutos. 


a. Qual é o número esperado de ligações recebidas em uma hora? 
b. Qual é a probabilidade de três ligações serem recebidas em cinco minutos? 
c. Qual é a probabilidade de nenhuma ligação ser recebida em um período de cinco minutos? 


Os estabelecimentos da Bed & Breakfast (B&B) registraram a estada de mais de 50 milhões de hós- 
pedes no ano passado. O site da Bed and Breakfast Inns of North America (www.bestinns.net), o qual 
tem uma média de aproximadamente sete visitas por minuto, possibilita a muitos estabelecimentos da 
B&B atraírem hóspedes sem a necessidade de esperar vários anos para serem citados em guias de via- 
gem (Time, setembro de 2001). 


a. Calcule a probabilidade de não haver nenhuma visita ao site no período de um minuto. 

b. Calcule a probabilidade de haver duas ou mais visitas ao site no período de um minuto. 

c. Calcule a probabilidade de haver uma ou mais visitas ao site em um período de 30 segundos. 
d. Calcule a probabilidade de haver cinco ou mais visitas ao site no período de um minuto. 


Os passageiros de uma empresa aérea chegam aleatória e independentemente ao balcão de controle 
de passageiros de um importante aeroporto internacional. A taxa média de chegada são 10 passagei- 
гоѕ por minuto. 


a. Calcule a probabilidade de ninguém chegar no período de um minuto. 

b. Calcule a probabilidade de trés ou menos passageiros chegarem no período de um minuto. 

c. Calcule a probabilidade de ninguém chegar em um período de 15 segundos. 

d. Calcule a probabilidade de pelo menos um passageiro chegar em um período de 15 segundos. 

De 1990 a 1999 houve uma média de aproximadamente 26 acidentes aeronáuticos por ano que acar- 
retaram a morte de um ou mais passageiros. A partir de 2000, a média decresceu para 15 acidentes 
por ano (The World Almanac and Book of Facts, 2004). Suponha que os acidentes aeronáuticos con- 
tinuem a ocorrer à taxa de 15 acidentes por ano. 
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a. Calcule o número médio de acidentes aeronáuticos por mês. 

b, Calcule a probabilidade de não ocorrer nenhum acidente durante um mês. 

c. Calcule a probabilidade de ocorrer exatamente um acidente durante um mês. 
d. Calcule a probabilidade de ocorrer mais de um acidente durante um mês. 


45. O National Safety Council registrou que as mortes relacionadas ao uso de air-bags caíram para 18 no 
ano 2000 (http://www.nsc.org). 
а. Calcule o número esperado de mortes relacionadas ao uso de air-bags por mês. 


b. Calcule a probabilidade de não ocorrer nenhuma morte relacionada ao uso de air-bags em um més. 
c. Calcule a probabilidade de ocorrer duas ou mais mortes relacionadas ao uso de air-bags em um més. 


5.6 DISTRIBUIÇÃO DE PROBABILIDADE HIPERGEOMÉTRICA 


A distribuição de probabilidade hipergeométrica relaciona-se restritamente com a distribuição de pro- 
babilidade binomial, As duas distribuições de probabilidade diferem sob dois aspectos fundamentais. 
Quando se trata da distribuição hipergeométrica, os ensaios não são independentes e a probabilidade de 
sucesso se modifica de ensaio a ensaio. 

Na notação usual da distribuição de probabilidade hipergeométrica, z denota o número de elementos da 
população de tamanho N que são rotulados de sucesso e N — r denota o número de elementos da população 
que são rotulados de fracasso. A função probabilidade hipergeométrica é usada para calcular a probabili- 
dade de obtermos x elementos rotulados de sucesso e л — x elementos rotulados de fracasso em uma seleção 
aleatória de л elementos, selecionados sem substituição, Para que isso ocorra, precisamos obter x sucessos 
dos r sucessos na população e п — x fracassos dos N — r fracassos. A seguinte função probabilidade hipergeo- 
métrica fornece f(x), a qual é a probabilidade de obtermos x sucessos em uma amostra de tamanho п. 


FUNÇÃO PROBABILIDADE HIPERGEOMÉTRICA 


MM 
уо) = AOA pgaa0mxmr (5.12) 


em que 
Дх) = probabilidade de x sucessos em n ensaios 

= número de ensaios 

número de elementos da população 

número de elementos da população rotulados de sucesso 


n 
N 
r 


N ; А ; 
Observe que ( ) representa o número de maneiras pelas quais uma amostra de tamanho n pode ser selecio- 


r А : 
nada de uma populacáo de tamanho N; ( ) representa o número de maneiras pelas quais x sucessos podem 


ser selecionados de um total de r sucessos na população; e ( ) representa o número de maneiras pelas 
à n — x, 


quais п — x fracassos pode ser selecionado de um total de N — r fracassos na população. 

Para ilustrar os cálculos envolvidos no uso da Equação 5.12, consideremos a seguinte aplicação de con- 
trole da qualidade. Os fusíveis elétricos produzidos pela Ontario Electric são embalados em caixas de 12 
unidades cada uma. Suponha que um controlador da qualidade selecione aleatoriamente trés dos 12 fusí- 
veis contidos em uma caixa para testá-los. Se a caixa contém exatamente cinco fusíveis defeituosos, qual 
é a probabilidade de o controlador da qualidade encontrar exatamente um dos trés fusíveis defeituosos? 
Nessa aplicação, n = 3e = 12. Com г = 5 fusíveis defeituosos na caixa, a probabilidade de encontrar 
x = 1 fusível defeituoso é: 
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OG) _ iss) 

1/42 1141/4215! (52D 
1217 220 
319! 

Suponha agora que queiramos saber qual é a probabilidade de encontrar pelo menos um fusível defei- 


tuoso. A maneira mais fácil de responder a essa questão é calcular primeiramente a probabilidade de o con- 
trolador da qualidade não encontrar nenhum fusível defeituoso. A probabilidade de x = 0 é 


5/7 5! 7! 
(06) (os) (ва) (1)(35) 
2 121) 220 
( 3 ) (31) 
Com a probabilidade de não haver nenhum fusível defeituoso (0) = 0,1591, concluímos que a probabi- 
lidade de encontrar pelo menos um fusível defeituoso deve ser 1 — 0,1591 = 0,8409. Assim, há a proba- 


bilidade razoavelmente elevada de o controlador da qualidade vir a encontrar pelo menos um fusível 
defeituoso. 


A média e a variância de uma distribuição hipergeométrica são apresentadas a seguir. 


fa) 0,4773 


РО) 0,1591 


Е) = р = a(z) o (5.13) 


Var) = о? ZU JG =) (5.14) 


No exemplo anterior, п = 3,r = 5 e N = 12. Assim, a média e a variância do número de fusíveis defei- 
tuosos é 


ven cca) ae cia 1) 7 


O desvio padrão é o = v0,60 = 0,77. 


NOTAS E COMENTÁRIOS 


Considere uma distribuição hipergeométrica com n ensaios. Digamos que p = (7/N) denote a probabi- 
lidade de um sucesso no primeiro ensaio. Se o tamanho da população for grande, o termo (№ — n) 
(N — 1) da Equação 5.14 aproxima-se de 1. Em conseqüéncia, o valor esperado e a variância podem ser 
escritos como E(x) = np e Var(x) = np(1 — p). Note que essas expressóes sáo similares àquelas usadas 
para calcular o valor esperado e a variância de uma distribuição binomial, como nas Equações 5.9 e 
(5.10). Quando o tamanho da população é grande, uma distribuição hipergeométrica pode ser aproxi- 
mada por meio de uma distribuição binomial com n ensaios e uma probabilidade de p = (r/N). 


Exercícios 
Métodos 
46. Suponha N = 10er = 3. Calcule as probabilidades hipergeométricas para os seguintes valores de n e x. 
an=4,x= 
bn=2,x=2 
с.п=2,х = 0 
dn=4,x=2 


47. Suponha N = 15 ег = 4. Qual é a probabilidade de x = 3 para n = 10? 
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Aplicacóes 


48. 


49. 


50. 


51. 


52. 


Em uma pesquisa de opiniáo realizada pela Gallup Organization foi feita a seguinte pergunta aos 
entrevistados: "A qual esporte vocé prefere assistir?" O futebol e o basquete classificaram-se em pri- 
meiro e segundo lugares, respectivamente, em termos de preferência (http://www.gallup.com, 3 de 
janeiro de 2004). Suponha que em um grupo de dez pessoas, sete prefiram futebol e trés, basquete. 
Uma amostra aleatória de trés dessas pessoas é selecionada. 


а. Qual é a probabilidade de exatamente duas preferirem futebol? 
b. Qual é a probabilidade de a maioria (duas ou trés) preferir futebol? 


O blackjack, ou vinte-e-um como é frequentemente chamado, é um jogo de azar popular jogado 
nos cassinos de Las Vegas. O jogador recebe duas cartas. As cartas da corte (valete, dama e rei) e os 
dez valem dez pontos. Os ases valem um ou 11 pontos. Um baralho de 52 cartas contém 16 cartas 
que valem dez pontos (valetes, reis, damas e dez) e quatro ases. 


a. Qual é a probabilidade de ambas as cartas tiradas serem ases ou cartas de dez pontos? 

b. Qual é a probabilidade de ambas as cartas serem ases? 

c. Qual é a probabilidade de ambas as cartas valerem dez pontos? 

d. Um blackjack forma-se com uma carta de dez pontos e um ás, totalizando 21 pontos. Use suas res- 
postas às questões (a), (b) e (c) para determinar a probabilidade de um jogador tirar um blackjack. 
(Dica: A questão (d) não é um problema hipergeométrico. Desenvolva sua própria relação lógica 
de como as probabilidades hipergeométricas dos itens (a), (b) e (c) podem ser combinadas para res- 
ponder a essa questão). 


A Axline Computers produz computadores pessoais em duas fábricas: uma no Texas e outra no Havaí. 
A fábrica do Texas tem 40 empregados e a do Havaí, 20. Pede-se a uma amostra aleatória de dez 
empregados para preencherem um questionário de benefícios. 


а. Qual é a probabilidade de nenhum dos empregados da amostra trabalhar na fábrica do Havaí? 

b. Qual é a probabilidade de um dos empregados da amostra trabalhar na fábrica do Havaí? 

c. Qual é a probabilidade de dois empregados ou mais dos empregados da amostra trabalharem na 
fábrica do Havaí? 

d. Qual é a probabilidade de nove dos empregados da amostra trabalharem na fábrica do Texas? 


A 2003 Zagat Restaurant Survey fornece classificações referentes à qualidade da comida, conforto e 
atendimento de alguns dos grandes restaurantes nos Estados Unidos. Para os 15 restaurantes mais 
bem classificados localizados em Boston o preço médio de um jantar, incluindo uma bebida e a gor- 
jeta, era US$ 48,60. Você chega a Boston em uma viagem de negócios e jantará em três desses res- 
taurantes. Sua empresa lhe reembolsará um valor máximo de US$ 50 por jantar. Seus colegas de 
negócios que têm familiaridade com esses restaurantes disseram-lhe que o custo das refeições em um 
terço dos restaurantes ultrapassará o valor de US$ 50. Suponha que você escolha aleatoriamente três 
desses restaurantes para fazer suas refeições. 


a. Qual é a probabilidade de nenhuma das refeições ultrapassar o custo coberto por sua empresa? 

b. Qual é a probabilidade de uma das refeições ultrapassar o custo coberto por sua empresa? 

c. Qual é a probabilidade de duas ou mais refeições ultrapassarem o custo coberto por sua empresa? 
d. Qual é a probabilidade de todas as três refeições ultrapassarem o custo coberto por sua empresa? 


Uma remessa de dez itens contém duas unidades com defeito e oito unidades sem defeito. Na inspe- 
ção de embarque, uma amostra de unidades será selecionada e testada. Se uma unidade com defeito 
for encontrada, a remessa de dez unidades será rejeitada. 


a. Se uma amostra de três itens for selecionada, qual é a probabilidade de o embarque ser rejeitado? 

b. Se uma amostra de quatro itens for selecionada, qual é a probabilidade de o embarque ser rejeitado? 

c. Se uma amostra de cinco itens for selecionada, qual é a probabilidade de o embarque ser rejeitado? 

d. Se a administração quiser obter uma probabilidade de 0,90 de rejeição de um embarque com duas 
unidades defeituosas e oito unidades sem defeito, qual seria o tamanho da amostra por você reco- 
mendada? 
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Resumo 


Uma variável aleatória constitui uma descrição numérica do resultado de um experimento. A distribuição 
de probabilidade de uma variável aleatória descreve a maneira pela qual as probabilidades se distribuem 
ao longo dos valores que a variável aleatória pode assumir. Para qualquer variável aleatória discreta x a 
distribuição de probabilidade é definida por uma função probabilidade, denotada por f(x) que fornece a 
probabilidade associada a cada valor da variável aleatória. Uma vez que a função probabilidade tenha sido 
definida, podemos calcular o valor esperado, a variância e o desvio padrão da variável aleatória. 

A distribuição de probabilidade binomial pode ser usada para determinar a probabilidade de x suces- 
sos em n ensaios sempre que o experimento apresentar as seguintes propriedades: 


1. O experimento consiste em uma seqüéncia de n ensaios idênticos. 

2. Dois resultados são possíveis em cada um dos ensaios, sendo um deles chamado sucesso e o outro, 
fracasso. 

3. A probabilidade de um sucesso p não se modifica de ensaio a ensaio. Conseqüentemente, a proba- 
bilidade de fracasso, 1 — p, não se modifica de ensaio a ensaio. ` 

4. Os ensaios são independentes. 


Quando as quatro condições são válidas a função probabilidade binomial pode ser usada para determi- 
nar a probabilidade de se obter x sucessos em n ensaios. Também foram apresentadas fórmulas relativas à 
média e à variância da distribuição binomial. 

A distribuição de Poisson é usada quando é desejável determinar a probabilidade de se obter x ocor- 
тёпсіаѕ ao longo de um intervalo de tempo ou de espaço. As seguintes hipóteses são necessárias para que 
a distribuição de Poisson seja aplicável. 


1. A probabilidade de uma ocorrência do evento é a mesma para dois intervalos quaisquer de igual 
comprimento, 

2. A ocorrência ou não-ocorrência do evento em qualquer intervalo é independente da ocorrência ou 
não-ocorrência do evento em qualquer outro intervalo. 


Uma terceira distribuição de probabilidade discreta, a hipergeométrica, foi apresentada na Seção 5.6. 
À semelhança da distribuição binomial, ela é usada para calcular a probabilidade de x sucessos em n 
ensaios. Mas, em comparação com a binomial, a probabilidade de sucesso modifica-se de ensaio a ensaio. 


Glossário 


Variável aleatória Uma descrição numérica do resultado de um experimento. 

Variável aleatória discreta Uma variável aleatória que pode assumir ou um número finito de valores ou 
uma seqüéncia de valores infinitos. 

Variável aleatória contínua Uma variável aleatória que pode assumir qualquer valor numérico em um 
intervalo ou grupo de intervalos. 

Distribuição de probabilidade Uma descrição de como as probabilidades se distribuem ao longo dos 
valores da variável aleatória. 

Função probabilidade Uma função, denotada por f(x), que fornece a probabilidade de x assumir um valor 
determinado para uma variável aleatória discreta. 

Distribuição de probabilidade discreta uniforme Uma distribuição de probabilidade para a qual cada 
valor possível da variável aleatória tem a mesma probabilidade. 

Valor esperado Uma medida da posição central de uma variável aleatória. 

Variância Uma medida da variabilidade, ou dispersão, de uma variável aleatória. 

Desvio padrão A raiz quadrada positiva da variância. 

Experimento binomial Um experimento que possui as quatro propriedades definidas no início da Seção 
54. 

Distribuição de probabilidade binomial A distribuição de probabilidade que mostra a probabilidade de 
X sucessos em n ensaios de um experimento binomial. 

Função probabilidade binomial A função usada para calcular probabilidades binomiais. 
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Distribuição de probabilidade de Poisson Uma distribuição de probabilidade que mostra a probabilida- 
de de x ocorrências de um evento em um intervalo de tempo ou de espaço específicos. 

Função probabilidade de Poisson A função usada para calcular as probabilidades de Poisson. 

Distribuição de probabilidade hipergeométrica Uma distribuição de probabilidade que mostra a proba- 
bilidade de x sucessos em n ensaios de uma população com r sucessos e N — r fracassos. 

Função probabilidade hipergeométrica A função usada para calcular probabilidades hipergeométricas. 


Fórmulas-Chave 


Função Discreta Uniforme de Probabilidade 
Р) = 1n (5.3) 


em que 
n = o número de valores que a variável aleatória pode assumir 


Valor Esperado de uma Variável Aleatória Discreta 
El) = и = Ухо) (54) 


Variáncia de uma Variável Aleatória Discreta 
Var) = o? = Убх — Wf (5.5) 


Número de Resultados Experimentais que Fornecem Exatamente x Sucessos em n Ensaios 


(* — (5.6) 


Cn! 
Função Probabilidade Binomial 
n = 

ғ) = (Dra = py» (5.8) 

Valor Esperado da Distribuição Binomial 
Е(х) = и = пр (5.9) 

Variância da Distribuição Binomial 

Уаг(х) = o? = пр(1 ~ p) (5.10) 
Função Probabilidade de Poisson 


х-н 
fo = < 6.11) 


Função Probabilidade Hipergeométrica 


fe = (» paraü x &r (5.12) 


Valor Esperado da Distribuicáo Hipergeométrica 
Ба) = u = a(z) 6.13) 


Variância da Distribuição Hipergeométrica 


Var() = о? 160 JS =) (514) 
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Exercícios Suplementares 


53. 


54. 


A Big Money Poll realizada pela Barron's perguntou a 131 gerentes de investimento de várias partes 
dos Estados Unidos a respeito de suas previsóes de investimento no curto prazo (Barron's, 28 de outu- 
bro de 2002). Suas respostas mostraram que 4% eram muito altistas (bullish), 39% eram altistas, 29% 
eram neutros, 21% eram baixistas (bearish) e 7% eram muito baixistas. Seja x a variável aleatória que 
reflete o nível de otimismo em relação ao mercado. Estabeleça x = 5 para os muito altistas e x = 1 
para os muito baixistas. 


a. Desenvolva a distribuição de probabilidade correspondente ao nível de otimismo dos gerentes de 
investimento. 

b. Calcule o valor esperado do nível de otimismo. 

c. Calcule a variância e o desvio padrão do nível de otimismo. 

d. Comente o que implicam os seus resuitados em relação ao nível de otimismo e sua variabilidade. 


A American Association of Individual Investors publica um guia anual dos principais fundos mútuos 
de investimentos (The Individual Investor's Guide to the Top Mutual Funds, 22e, American 
Association of Individual Investors, 2003). A Tabela 5.10 contém suas classificações do risco total, 
referentes a 29 categorias de fundos mútuos de investimentos. 


a. Admita x = 1 para baixo risco e x = 5 para alto risco e desenvolva uma distribuição de probabili- 
dade para o nível de risco. 

b. Quais são o valor esperado e a variância do risco total? 

c. Ocorre que 11 das categorias de fundos eram fundos de debêntures. Dos fundos de debêntures, sete 
categorias tinham uma baixa classificação e quatro tinham uma classificação abaixo da média. 
Compare o risco total dos fundos de debêntures com as 18 categorias de fundos de ações. 


Tabela 5.10 Classificação do risco para 29 categorias de fundos mútuos de investimentos 


Risco total Número de Categorias de Fundos 
Baixo 7 

Abaixo da média 
Médio 

Acima da média 
Elevado 


SA шо о 


55. 


56. 


O processo de elaboração orçamentária de uma universidade do meio-oeste resultou em previsões de 
gastos para о ano vindouro equivalentes a (em milhões) US$ 9, US$ 10, US$ 11, US$ 12 e US$ 13. 
Como os gastos atuais são desconhecidos, são atribuídas as seguintes probabilidades, respectivamen- 
te: 0,3; 0,2; 0,25; 0,05; е 0,2. 

a. Mostre a distribuição de probabilidade correspondente à previsão de gastos. 

b. Qual é o valor esperado da previsão de gastos para o ano vindouro? 

c. Qual é a variância da previsão de gastos para o ano vindouro? 

d. Se as projeções de renda para o ano são estimadas em US$ 12 milhões, comente a posição finan- 
ceira da universidade. 


Uma pesquisa realizada pelo Bureau of Transportation Statistics (BTS) mostrou que o número médio 

de pessoas que usam meios de transporte gastam cerca de 26 minutos em uma viagem de um itinerá- 

rio, de suas residências ao local de trabalho. Além disso, 5% das pessoas que usam meios de trans- 

porte relataram que fazem uma única viagem de um itinerário de mais de uma hora 

(http://www.bts.gov, 12 de janeiro de 2004). 

a. Se 20 pessoas que usam meios de transporte são entrevistadas em um dia em particular, qual é a 
probabilidade de três relatarem uma viagem de um itinerário de mais de uma hora? 

b. Se 20 pessoas que usam meios de transporte são entrevistadas em um dia em particular, qual é a 
probabilidade de nenhuma delas relatar uma viagem de um itinerário de mais de uma hora? 

c. Se uma empresa tem 2 mil funcionários, qual é o número esperado de funcionários que farão uma 
viagem com um itinerário de mais de uma hora? 

d. Se uma empresa tem 2 mil funcionários, qual é a variância e o desvio padrão do número de fun- 
cionários que fazem uma viagem de um itinerário de mais de uma hora? 
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57. 


58. 


59. 


60. 


61. 


Uma empresa planeja entrevistar usuários da internet para verificar como o seu site proposto será 
recebido por diferentes grupos etários. De acordo com o Census Bureau (Departamento do Censo), 
40% das pessoas da faixa etária entre 18 e 54 anos e 12% das pessoas com 55 anos ou mais изат a 
internet (Statistical Abstract of the United States, 2000). 


a. Quantas pessoas da faixa etária entre 18 e 54 anos devem ser contatadas a fim de se descobrir o 
nümero esperado de pelo menos dez usuários da internet? 

b. Quantas pessoas da faixa etária a partir dos 55 anos devem ser contatadas para se ter o námero 
esperado de pelo menos dez usuários da internet? 

c. Se você contatar o número de pessoas da faixa etária entre 18 e 54 anos sugerida no item (a), qual 
será o desvio padrão do número de pessoas que serão usuárias da internet? 

d. Se você contatar o número de pessoas da faixa etária a partir dos 55 anos sugerida no item (b), qual 
será o desvio padrão do número de pessoas que serão usuárias da internet? 


Muitas empresas usam uma técnica de controle da qualidade denominada amostragem de aceitação 
para monitorar o carregamento de chegada de peças, matérias-primas e assim por diante. Na indús- 
tria eletrônica, os componentes comumente são despachados pelos fornecedores em grandes lotes. A 
inspeção de uma amostra de n componentes pode ser vista como os n ensaios de um experimento 
binomial, O resultado de cada componente testado (ensaio) indicará que ele é classificado como um 
componente bom ou defeituoso. A Reynolds Electronics aceita lotes de determinado fornecedor se os 
componentes defeituosos de um lote não ultrapassarem 1%. Suponha que uma amostra aleatória de 
cinco itens de uma remessa recente seja testada. 


a. Suponha que 1% da remessa apresente defeitos. Calcule a probabilidade de nenhum item da amos- 
tra estar defeituoso. 

b. Suponha que 1% da remessa apresente defeitos. Calcule a probabilidade de exatamente um item da 
amostra estar com defeito. 

c. Qual é a probabilidade de se observar um ou mais itens com defeito na amostra, se 1% da remes- 
sa tiver defeitos. 

d. Você se sentiria à vontade em aceitar a remessa se um item fosse considerado defeituoso? Por quê? 


A taxa de desemprego é de 4,1% (Barron's, 4 de setembro de 2004). Suponha que 100 pessoas aptas 
a entrar no mercado de trabalho sejam selecionadas aleatoriamente. 


М 
a. Qual é o número esperado de pessoas que estão desempregadas? 
b. Qual é a variância e o desvio padrão do número de pessoas que estão desempregadas? 


Uma pesquisa de opinião levada a efeito pela Zogby International mostrou que, dos norte-america- 
nos que disseram que a música desempenha papel “muito importante” em suas vidas, 30% disseram 
que as estações de rádio locais “sempre” executam o tipo de música de que eles gostam 
(http://www. zogby.com, 12 de janeiro de 2004). Suponha que seja tomada uma amostra de 800 pes- 
soas que disseram que a música desempenha papel importante em suas vidas. 


a. Quantas pessoas você espera que digam que suas estações de rádio locais executam sempre o tipo 
de música de que elas gostam? 

b. Qual é o desvio padrão do número de entrevistados que acham que suas estações de rádio locais 
sempre executam o tipo de música de que eles gostam? 

c. Qual é o desvio padrão do número de entrevistados que não acha que suas estações de rádio locais 
sempre executam o tipo de música de que eles gostam? 


Os carros chegam a um lava-rápido aleatória e independentemente; a probabilidade de um carro che- 
gar é a mesma para dois intervalos de tempo de igual duração. A taxa média de chegada são 15 car- 
ros por hora. Qual é a probabilidade de 20 ou mais carros chegarem durante determinado horário 
de operação? 


62. Um novo processo automatizado de produção tem uma média de 1,5 pane por dia. Em virtude do custo 


associado a cada pane, a administração está preocupada com a possibilidade de haver três ou mais 
panes durante um dia. Suponha que as panes ocorram aleatoriamente, que a probabilidade de uma 
pane seja a mesma para dois intervalos de tempo qualquer de igual duração e que as panes ocorridas 
em um período sejam independentes das panes ocorridas em outros períodos. Qual é a probabilidade 
de haver duas ou três panes durante um dia? 


63. Um diretor regional responsável pelo desenvolvimento dos negócios no estado da Pensilvânia está 


preocupado com o número de fracassos de pequenos negócios. Se o número médio de fracassos de 
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pequenos negócios por més for igual a 10, qual será a probabilidade de exatamente quatro pequenos 
negócios fracassarem durante determinado més? Suponha que a probabilidade de fracassos seja a 
mesma para dois meses quaisquer e que a ocorréncia ou náo-ocorréncia de um fracasso em determi- 
nado més seja independente dos fracassos em outro més qualquer. 


64. Clientes chegam a um banco de forma aleatória e independente; a probabilidade de um cliente che- 
gar no período de um minuto qualquer é similar à probabilidade de outro cliente chegar em outro 
período de um minuto qualquer. Responda às seguintes questóes, supondo uma taxa de chegada 
média igual a trés clientes por minuto. 


a. Qual é a probabilidade de exatamente trés chegadas no período de um minuto? 
b. Qual é a probabilidade de haver pelo menos trés chegadas no período de um minuto? 


65. Um baralho contém 52 cartas, das quais quatro são ases. Qual é a probabilidade de uma mão de cinco 
cartas oferecer: 


а. Um par de ases? 

b. Exatamente um ás? 
c. Nenhum ás? 

d. Pelo menos um ás? 


66. Durante a semana que se encerrou em 16 de setembro de 2001, Tiger Woods foi o vencedor que mais 
ganhou dinheiro no PGA Tour, com ganhos totais de US$ 5.517.777. Entre os dez principais vence- 
dores, sete jogadores usaram uma bola de golfe marca Totleist (http://www.pgatour.com). Suponha 
que selecionemos aleatoriamente dois dos vencedores que mais ganharam dinheiro. 


a. Qual é a probabilidade de exatamente um usar a bola de golfe Titleist? 
b. Qual é a probabilidade de ambos usarem bolas de golfe Titleist? 
c. Qual é a probabilidade de nenhum deles usar uma bola de golfe Titleist? 


Apéndice 5.1 – Distribuições Discretas de Probabilidade com o Minitab 


Pacotes estatísticos como, por exemplo, o Minitab oferecem um procedimento relativamente eficiente е 
fácil para calcular probabilidades binomiais. Neste apéndice, ilustramos o procedimento etapa por etapa 
para se determinar as probabilidades binomiais relativas ao problema da loja de roupas do Martin apresen- 
tado na Seção 5.4. Lembre-se de que as probabilidades binomiais desejadas se baseiam em n = 10, е 
p — 0,30. Antes de iniciar a rotina do Minitab, o usuário deve inserir os valores desejados da variável alea- 
tória x em uma coluna da planilha. Colocamos os valores 0, 1, 2, ..., 10 na coluna 1 (veja a Figura 5.5) para 
gerar toda a distribuição de probabilidade binomial. As etapas do Minitab para se obter as probabilidades 
binomiais desejadas são apresentadas a seguir. 


Etapa 1. Selecione o menu Calc 

Etapa 2. Escolha a opção Probability Distributions 

Etapa 3. Escolha à opção Binomial 

Etapa 4. Quando surgir a caixa de diálogo Distribuição Binomial: 
Selecione Probability 
Digite 10 na caixa Number of trials: 
Digite 0,3 na caixa Probability of success 
Digite C1 na caixa Input column. 
Dé um clique em OK 


Os resultados do Minitab com as probabilidades binomiais teráo a aparéncia mostrada na Figura 5.5. 

O Minitab fornece as probabilidades de Poisson e hipergeométricas de maneira similar. Por exemplo, 
para calcular probabilidades de Poisson, as únicas diferenças estão na etapa 3, em que a opção Poisson 
deve ser selecionada, e na etapa 4, em que se deve digitar Mean em vez do número de ensaios e a proba- 
bilidade de sucesso. І 


Apéndice 5.2 – Distribuições Discretas de Probabilidade com o Excel 


O Excel fornece funções para calcular probabilidades para as distribuições binomial, de Poisson e hiper- 
geométrica, apresentadas neste capítulo. A função do Excel para calcular probabilidades binomiais é.a 
BINOMDIST. Ela tem quatro argumentos: x (o número de sucessos), n (o número de ensaios), p (a proba- 
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bilidade de sucesso) e cumulativo. FALSE é usado para o quarto argumento (cumulativo), se quisermos a 
probabilidade de x sucessos, e TRUE é usada para o quarto argumento se quisermos a probabilidade cumu- 
lativa de x sucessos ou menos. Mostramos aqui como calcular as probabilidades de zero a dez sucessos 
para o problema da loja de roupa do Martin, mostrado na seção 5.4 (veja a Figura 5.5). 

À medida que descrevermos o desenvolvimento da planilha, consulte a Figura 5.6; a planilha com a 
fórmula é definida em segundo plano e a planilha com o valor aparece em primeiro plano. 


Figura 5.6 Planilha do Excel para calcular probabilidades binomiais 


M E E 5 
1: | Número de Ensaios (п) 10 
2 | Probabilidade de Sucesso (р 0.3 
3 
а х Уб) 
BH 0 | -BINOMDIST(BS,SBSISBS2,FALSE) = 
$ 1 | =BINOMDIST(B6,$B$1,$B$2,FALSE) 
E 2 | =BINOMDIST(B7,$B$1,$B$2,FALSE) ** 
8 3 | =BINOMDIST(B8,$B$1,$B$2,FALSE) 
9 4 | SBINOMDIST(B9,$B$1,$B$2,FALSE) ^ 
10 5 | -BINOMDIST(B10,$B$1,$B$2.FALSE) 
1 6 | =BINOMDIST(B11,$B$1,$B$2,FALSE) 
12 7 | =BINOMDIST(B12,$B$1,$B$2,FALSE) : 
13 8 | -BINOMDIST(B13,$B$1,$B$2, FALSE) 
14 9 | ZBINOMDIST(B14,$B$1,$B$2, FALSE) 
15 10 | -BINOMDIST(B15,$B$1,$B$2,FALSE) 
(16 | А - В D | 
1 | Número de Ensaios (n) | 
2 | Probabilidade de Sucesso (р) 
3] 
4 | х 
5 | 0 
6 | 1 
7 2 
8 3 
9 4 
10 5 
pt 6 
12 7 
13 8 
14 9 
15 10 E 0000. 
16 


Digitamos o número de ensaios (10) na célula B1, a probabilidade de sucesso na célula B2 e os valo- 
res da variável aleatória nas células B5:B15. As etapas seguintes gerarão as probabilidades desejadas: 


Etapa 1. Use a função BINOMDIST para calcular a probabilidade de x = 0 ao digitar a seguinte 
fórmula na célula C5: 


—BINOMDIST(BS,$B$1,$B$2, FALSE) 
Etapa2. Copie a fórmula da célula C5 para as células C6:C15. 


A planilha de valor da Figura 5.6 mostra que as probabilidades obtidas são similares às apresentadas 
na Figura 5.5. As probabilidades de Poisson e hipergeométricas podem ser calculadas de maneira similar. 
São usadas as funções POISSON e HYPERGEOMETRIC. A ferramenta Insert Function do Excel pode 
ajudar o usuário a introduzir os argumentos necessários para estas funções (veja o Apêndice 2.2). 


CAPÍTULO 6 


Distribuições Contínuas de 
Probabilidade 


ESTATÍSTICA NA PRÁTICA 


PROCTER & GAMBLE* 
Cincinnati, Ohio 


A Procter & Gamble (P&G) produz e comercializa produtos como detergentes, fraldas descartáveis, produ- 
tos farmacêuticos ao consumidor, cremes dentais, sabonetes, anti-sépticos bucais e toalhas de papel. Em nível 
mundial, sua marca ocupa a posição de liderança em mais categorias do que qualquer outra empresa de pro- 
dutos de consumo. 

Como líder na aplicação de métodos estatísticos para a tomada de decisões, a P&G emprega pessoas com 
os mais diversos tipos de formação acadêmica: engenharia, estatística, pesquisa operacional e administração. 
Às principais tecnologias quantitativas para as quais esses profissionais dão suporte são: decisão probabilística 
e análise de riscos, simulação avançada, melhoria da qualidade e métodos quantitativos (por exemplo, pro- 
gramação linear, análise de regressão, análise de probabilidade). 

А Industrial Chemicals Division da P&G é a principal fornecedora de alcoóis graxos derivados de substân- 
cias naturais como o óleo de coco e derivados de petróleo, Essa divisão queria avaliar os riscos econômicos 
e as oportunidades de expandir suas instalações de produção de alcoóis graxos; portanto, foram convocados 
especialistas em decisão probabilística e análise de riscos da P&G para auxiliar. Depois de estruturar e esque- 
matizar o problema, determinaram que a chave da lucratividade seria a diferença de custo entre as matérias- 


* Os autores agradecem a Joel Kahn, da Procter & Gamble, por fornecer esta “Estatística na Prática”. 
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primas à base de petróleo e de óleo de coco. Os custos futuros eram desconhecidos, mas os analistas pude- 
ram representá-los com as seguintes variáveis aleatórias contínuas. 


X = o preço do óleo de coco por litro de álcool graxo. 


y = o preço da matéria-prima à base de petróleo por quilo de álcool graxo. 


Uma vez que a lucratividade era a diferença entre essas duas variáveis aleatórias, uma terceira variável alea- 
tória, d = x — y, foi utilizada na análise, Especialistas foram entrevistados para determinar a distribuição de pro- 
babilidades de x e y. . 

Por sua vez, essa informação foi utilizada para desenvolverem uma distribuição contínua de probabilidade 
da diferença de preços d. Essa distribuição contínua de probabilidade forneceu a probabilidade de 0,90 de a 
diferença de preço ser de US$ 0,0655 ou menos, e a probabilidade de 0,50 de a diferença de preço ser de 
US$ 0,035 ou menos. Além disso, havia somente 0,10 de probabilidade de a diferença de preço ser de US$ 
0,0045 ou menos.* А 

А Industrial Chemicals Division acreditava que o fato de serem capazes de quantificar о impacto das diferen- 
gas de prego das matérias-primas seria fundamental para chegar a um consenso. As probabilidades obtidas 
foram utilizadas em urna análise de sensibilidade da diferenca de precos das matérias-primas. A análise produ- 
ziu o insight suficiente para fundamentar uma recomendação à administração. 


O uso de variáveis aleatórias contínuas e suas distribuições probabilísticas foi útil à P&G ao analisar os 
riscos econômicos associados à produção de alcoóis graxos. Neste capítulo, você compreenderá o que são 
as variáveis aleatórias contínuas e suas distribuições de probabilidade, incluindo uma das distribuições de 
probabilidade mais importantes da estatística: a distribuição normal, 

No capítulo anterior, discutimos as variáveis aleatórias discretas e suas distribuições de probabilidade. 
Neste capítulo, voltamo-nos ao estudo das variáveis aleatórias contínuas. Especificamente, discutiremos 
três distribuições contínuas de probabilidade: a uniforme, a normal e a exponencial. 

Uma diferença fundamental separa as variáveis aleatórias discretas e as contínuas em termos de como as 
probabilidades são calculadas. Quanto a uma variável aleatória discreta, a função de probabilidade fx) pro- 
duz a probabilidade de a variável aleatória assumir um valor em particular. No que diz respeito às variáveis 
aleatórias contínuas, a contraparte da função de probabilidade é a função densidade de probabilidade, tam- 
bém expressa por f(x). A diferença é que a função densidade de probabilidade não produz probabilidades 
diretamente. Entretanto, a área sob o gráfico de f(x) correspondente a determinado intervalo produz a proba- 
bilidade de a variável aleatória contínua x assumir um valor nesse intervalo. Então, quando calculamos pro- 
babilidades de variáveis aleatórias contínuas, calculamos a probabilidade de a variável aleatória assumir 
qualquer valor nesse intervalo. . 

Uma das implicações da definição de probabilidade com respeito às variáveis aleatórias contínuas é o 
fato de a probabilidade de qualquer valor em particular da variável aleatória ser zero, porque a área sob o 
gráfico de f(x) em qualquer ponto em particular é zero. Na Seção 6.1, demonstramos esses conceitos em 
relação a uma variável aleatória contínua que tem uma distribuição uniforme de probabilidade. 

Grande parte deste capítulo dedica-se a descrever e ilustrar aplicações da distribuição normal de pro- 
babilidade. A distribuição normal de probabilidade tem importância fundamental em razão de sua ampla 
aplicabilidade e extenso uso na inferência estatística. Este capítulo encerra-se com uma discussão da dis- 
tribuição exponencial de probabilidade. 


* As diferenças de preço aqui apresentadas foram modificadas para guardar dados protegidos por direitos de propriedade. 
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6.1 DISTRIBUICÁO UNIFORME DE PROBABILIDADE 


Suponha que a variável aleatória x represente o tempo de vôo de um avião que vai de Chicago a Nova 
York. Suponha que o tempo de vóo possa ter qualquer valor no intervalo de 120 a 140 minutos. Uma vez 
que a variável aleatória x pode assumir qualquer valor desse intervalo, x é uma variável aleatória contí- 
nua, não uma variável aleatória discreta. Suponha que suficientes dados de vôo reais estejam disponíveis 
para podermos concluir que a probabilidade de tempo de vôo no intervalo de 1 minuto qualquer tenha a 

" ^ А А ` : Sempre que a 
mesma probabilidade de tempo de vôo em outro intervalo de 1 minuto contido no espaço mais amplo de probabilidade é 
120 a 140 minutos. Considerando que cada um dos intervalos de 1 minuto é igualmente provável, dize- proporcional ао 
mos que a variável aleatória tem uma distribuição uniforme de probabilidade. A função densidade de comprimento do 
probabilidade, a qual define a distribuição uniforme de probabilidade correspondente à variável aleatória | intervalo, a variável 


“tempo de vôo”, é: aleatória se 
encontra 
_ 1/20 рага 120 = x x 140 uniformemente 
fe) = 0 outro ponto qualquer distribuida. 


A Figura 6.1 é um gráfico dessa função densidade de probabilidade. Geralmente, a função densidade 
uniforme de probabilidade de uma variável aleatória x é encontrada por meio da seguinte fórmula: 


FUNÇÃO DENSIDADE UNIFORME DE PROBABILIDADE 


1 paraa Sx £b 
№) = {6-а (6.1) 
0 outro ponto qualquer 


Em relação à variável aleatória “tempo de vôo”, a = 120 e b = 140. 


Figura 6.1 Função densidade uniforme da probabilidade de tempos de vôo 


то) 


120 125 130 -135 140 


Tempo de Vôo em Minutos 


Conforme observamos na introdução com relação a uma variável aleatória contínua, consideramos a 
probabilidade somente em termos da possibilidade de uma variável aleatória assumir um valor dentro de 
um intervalo específico. No exemplo do tempo de vôo, uma questão de probabilidade aceitável é: qual é a 
probabilidade de o tempo de vôo situar-se entre 120 e 130 minutos? Ou seja, qual é P(120 = x = 130)? 
Visto que o tempo de vôo precisa estar entre 120 e 140 minutos, e porque a probabilidade é descrita como 
uniforme nesse intervalo, sentimo-nos à vontade para dizer que P(120 = x = 130) = 0,50. Na subseção 
seguinte, mostramos que essa probabilidade pode ser calculada como a área sob o gráfico de f(x), de 120 
a 130 (veja a Figura 6.2). 


A Área como uma Medida de Probabilidade 


Permita-nos fazer uma observação a respeito do gráfico da Figura 6.2. Considere a área sob o gráfico de 
f(x) no intervalo entre 120 e 130. A área é retangular e sabemos que a área de um retângulo é simplesmen- 
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Para constatar a 
veracidade de que 
a probabilidade de 
um ponto simples 
qualquer é 0, 
consulte a Figura 
62 e calcule a 
probabilidade de 
um ponto simples, 
digamos, 

х = 125. 

Р(х = 125) = 
Р(125 €x < 125) 
= 0(1/20) = 0. 
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te a largura multiplicada pela altura. Sendo a largura do intervalo igual a 130 — 120 — 10, e a altura igual 
ao valor da função densidade de probabilidade f(x) = 1/20, temos a área, que é a largura multiplicada pela 
altura: 10(1/20) = 10/20 = 0,50. 


Figura 6.2 À área fomece a probabilidade do tempo de vôo entre 120 e 130 minutos 


f) 


P(120 € x < 130) = Área = 1/20(10) = 10/20 = 0,50 


Tempo de Vôo em Minutos 


Qual observação você poderia fazer a respeito da área sob o gráfico de f(x) e a probabilidade? Elas são 
idênticas! De fato, essa observação é verdadeira para todas as variáveis aleatórias contínuas. Tão logo a 
função densidade de probabilidade f(x) seja identificada, a probabilidade de x assumir um valor entre 
algum valor x, mais baixo e algum valor x, mais alto pode ser encontrada calculando-se a área sob o grá- 
fico de f(x) no intervalo entre x, e x;. 

Dada a distribuição uniforme do tempo de vôo, e usando a área como uma probabilidade, podemos res- 
ponder a quaisquer questóes probabilísticas sobre os tempos de vóo. Por exemplo, qual é a probabilidade 
de ocorréncia de um tempo de vóo entre 128 e 136 minutos? A largura do intervalo é 136 — 128 — 8. Sendo 
a altura de f(x) = 1/20 uniforme, observamos que P(128 = x = 136) = 8(1/20) = 0,40. 

Observe que P(120 = x = 140) == 20(1/20) = 1, ou seja, a área total sob o gráfico de f(x) é igual a 1. Essa 
propriedade é válida para todas as distribuições contínuas de probabilidade e é análoga à condição de que a 
soma das probabilidades deve ser igual a 1 em uma função de probabilidade discreta. No que se refere a uma 
função densidade contínua de probabilidade, também devemos impor que f(x) = O para todos os valores de x. 
Esse requisito é análogo à necessidade de se ter f(x) 2 O para funções de probabilidade discretas. 

Duas importantes diferenças se colocam no tratamento das variáveis aleatórias contínuas e no trata- 
mento de suas contrapartes discretas. 


1. Não falamos mais da probabilidade de a variável aleatória assumir um valor em particular. Ao con- 
trário, falamos da probabilidade de a variável aleatória assumir um valor dentro de um intervalo 
determinado. 

2. A probabilidade de uma variável aleatória contínua assumir um valor dentro de determinado interva- 
lo entre x, e x, é definida como a área sob o gráfico da função densidade de probabilidade que se 
encontra entre x, e x;. Uma vez que um ponto simples é um intervalo que tem largura zero, isso impli- 
ca que a probabilidade de uma variável aleatória contínua assumir de maneira exata qualquer valor 
em particular é zero. Significa também que a probabilidade de uma variável aleatória contínua assu- 
mir um valor em qualquer intervalo é a mesma, quer os pontos extremos sejam incluídos quer não. 


O cálculo do valor esperado e da variância de uma variável aleatória contínua é análogo ao cálculo que 
efetuamos para uma variável aleatória discreta. Entretanto, desde que o procedimento de cálculo envolva 
cálculo integral, deixamos a derivação das fórmulas apropriadas para os livros mais avançados. 

Quanto à distribuição contínua uniforme de probabilidade introduzida nesta seção, as fórmulas do valor 
esperado e da variância são as seguintes: 


a+b 
2 

(b — ay 
12 


Е(х) = 


Var(x) = 
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Nessas fórmulas, a é o menor valor, e b, o maior valor que a variável aleatória pode assumir. 


Aplicando essas fórmulas à distribuição uniforme de probabilidade para os tempos de vôo Chicago a 


Nova York, obtemos 


(120 + 140) 
2 

. (140 - 1207 

E 12 


EQ) = = 130 


Var(x) = 33,33 


О desvio padráo dos tempos de убо pode ser encontrado extraindo-se а raiz quadrada da variáncia. 


Desse modo, с = 5,77 minutos. 


NOTAS E COMENTÁRIOS 


Para entender com mais clareza por que a altura de uma função densidade de probabilidade não é uma 
probabilidade, imagine uma variável aleatória com a seguinte distribuição uniforme de probabilidade: 


2 paralsr=0,5 


fed = {о outro ponto qualquer 


A altura da função densidade de probabilidade, f(x), é 2 para os valores de x situados entre 0 e 0,5. Porém, 
sabemos que as probabilidades nunca podem ser maiores que 1. Desse modo, notamos que f(x) não pode 
ser interpretada como a probabilidade de x. 


Exercícios 


Métodos 
1. 


Sabe-se que а variável aleatória x está distribuída uniformemente entre 1,0 e 1,5. 


a. Apresente o gráfico da função densidade de probabilidade, 
b. Calcule P(x = 1,25). AUTOTESTE 
c. Calcule P(1,0 = x = 1,25). 
d. Calcule P(1,20 < x < 1,5). 


Sabe-se que a variável aleatória x está distribuída uniformemente entre 10 e 20. 


a. Apresente o gráfico da função densidade de probabilidade. 
b. Calcule P(x < 15). 

c. Calcule P(12 x x = 18). 

d. Calcule E(x). 

e. Calcule Var(x). 


Aplicações 


3. 


A Delta Airlines declara que seus tempos de vôo de Cincinnati a Tampa são de duas horas e cinco 
minutos. Suponha que acreditemos que os tempos de vôo reais estejam uniformemente distribuídos 
no intervalo de duas horas e duas horas e 20 minutos. 


a. Apresente o gráfico da função densidade de probabilidade correspondente aos tempos de vôo. 
b. Qual é a probabilidade de o vôo ter não mais que cinco minutos de atraso? 

c. Qual é a probabilidade de o vôo ter mais que dez minutos de atraso? 

d. Qual é a expectativa do tempo de vôo? 


A maioria das linguagens de computador contém uma função que pode ser usada para gerar números © 7 
aleatórios. No Excel, a função ALEATÓRIO pode ser usada para gerar números aleatórios entre 0 е AUTOTESTE 
1. Se admitirmos que x denota um número aleatório gerado pela função ALEATÓRIO, então x é uma 

variável aleatória contínua com a seguinte função densidade de probabilidade: 


1 раа0=х=1 
O  outro ponto qualquer 


ғо) = | 
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Abraham de 
Moivre, 
matemático 
francés, publicou 
The Doctrine of 


Chances em 1733. 


Foi ele quem 
deduziu a dis- 
tribuição normal 
de probabilidade, 


Estatística Aplicada à Administracáo e Economia 


а. Trace o gráfico da função densidade de probabilidade. 

b. Qual é a probabilidade de se gerar um nümero aleatório entre 0,25 e 0,75? 

с. Qual é a probabilidade de se gerar um número aleatório com valor menor ou igual a 0,30? 
d. Qual é a probabilidade de se gerar um número aleatório com valor maior que 0,60? 


5. А maior distância de arremesso obtida pelos cem melhores golfistas da РСА (Professional Golfers 
Association) situa-se entre 284,7 e 310,6 jardas (Golfweek, 29 de março de 2003). Suponha que a 
maior distância de arremesso obtida por esses golfistas se distribua uniformemente ao longo desse 
intervalo. 


a. Apresente uma expressão matemática da função densidade de probabilidade da maior distância de 
arremesso. 

b. Qual é a probabilidade de a maior distância de arremesso obtida por um desses golfistas ser menor 
que 290 jardas? 

c. Qual é a probabilidade de a maior distância de arremesso obtida por um desses golfistas ser de, no 
mínimo, 300 jardas? 

d. Qual é a probabilidade de a maior distância de arremesso de um desses golfistas se situar entre 290 
e 305 jardas? 

e. Quantos desses golfistas arremessam a bola, no mínimo, 290 jardas? 


6. O rótulo de uma garrafa de detergente líquido indica que o conteúdo é de 12 onças por garrafa. A ope- 
ração de produção preenche a garrafa uniformemente, de acordo com a seguinte função densidade de 
probabilidade: 


_ [8 рага 11,975 = x = 12,100 
Хә) = 
outro ponto qualquer 


a. Qual é a probabilidade de uma garrafa ser preenchida com um volume entre 12 e 12,05 onças? 

b. Qual é a probabilidade de uma garrafa ser preenchida com 12,02 onças ou mais? 

c. O controle da qualidade aceita uma margem de erro de 0,02 onças no preenchimento de uma gar- 
rafa em relação ao volume indicado em seu rótulo. Qual é a probabilidade de a garrafa desse deter- 
gente líquido deixar de cumprir o padrão estabelecido pelo controle da qualidade? 


7. Suponha que estejamos interessados em apresentar uma oferta de compra de um lote de terra e sabe- 
mos que há outro concorrente interessado.! O vendedor anunciou que a oferta mais alta, acima de 
US$ 10 mil, seria aceita. Suponha que a oferta x apresentada pelo concorrente seja uma a variável alea- 
tória que se distribui uniformemente entre US$ 10 mil e US$ 15 mil. 


a. Suponha que você faça uma oferta de US$ 12 mil. Qual é é a probabilidade de o seu lance ser aceito? 

b. Suponha que você faça uma oferta de US$ 14 mil. Qual é a probabilidade de o seu lance ser aceito? . 

с, Qual valor você deve oferecer para maximizar a probabilidade de obter a propriedade? 

d. Suponha que você conheça alguém que esteja disposto a pagar US$ 16 mil pela propriedade. Você 
consideraria fazer uma oferta menor que o valor envolvido no item (c)? Por quê? 


6.2 DISTRIBUIÇÃO NORMAL DE PROBABILIDADE 


A mais importante distribuição de probabilidade para descrever uma variável aleatória contínua é a distri- 
buição normal de probabilidade. A distribuição normal de probabilidade é usada em ampla variedade de 
aplicações práticas em que as variáveis aleatórias são.a altura e peso das pessoas, notas de exames, medi- 
ções científicas, índices pluviométricos e outros valores similares. Ela também é amplamente usada na 
inferência estatística, a qual corresponde o tópico principal do restante deste livro. Nessas aplicações, a 
distribuição normal fornece uma descrição dos resultados prováveis obtidos por meio de amostragem. 


1 Esse exercício baseia-se em um problema sugerido pelo professor Roger Myerson, da Northwestern University. 
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Curva Normal 


O formato, ou forma, da distribuição normal de probabilidade é ilustrado pela curva em forma de sino 
apresentada na Figura 6.3. A funcáo densidade de probabilidade que define a curva em forma de sino da 
distribuição normal de probabilidade é a seguinte: 


Figura 6.3 Curva em forma de sino correspondente à distribuição normal de probabilidade 


Desvio padrão o 


е x 
Р . 
Média 


FUNÇÃO DENSIDADE NORMAL DE PROBABILIDADE 
1 


fe = = eec? (6.2) 
о\2л 
em que 
m = média 
s = desvio padrão 
p = 3,14159 
e = 2,7182 


Vamos fazer diversas observações sobre as carcterísticas da distribuição normal. 


A curva normal 
tem dois 
parámetros, pe o. 
2. O ponto máximo da curva normal encontra-se na média, que é também a mediana e a moda da dis- Eles 

tribuição. determinam a 

. ИЕ : . ul A anna Posição e a forma 

3. A média da distribuição pode ser qualquer valor numérico: negativo, zero ou positivo. Três distribui- аа distribuição 

ções normais com o mesmo desvio padrão, mas três diferentes médias, (10, O е 20), são mostradas a пота! de 

seguir: probabilidade. 


1. A família inteira das distribuições normais de probabilidade é diferenciada por dois parâmetros: sua 
média m e seu desvio padrão s. ` 


-l0 0 20 


4. A distribuição normal é simétrica, sendo a forma da curva à esquerda da média uma imagem espe- 
lhada da forma da curva à direita da média. Os extremos (caudas) da curva tendem ao infinito em 
ambas as direções e, teoricamente, jamais tocam o eixo horizontal. Uma vez que é simétrica, a dis- 
tribuição normal de probabilidade não é inclinada; a medida de sua assimetria é zero. 
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5. O desvio padráo determina quanto uma curva é achatada ou larga. Valores maiores do desvio padráo 
resultam em curvas mais largas e mais achatadas, exibindo maior variabilidade dos dados. Duas dis- 
tribuicóes normais com a mesma média, mas com desvios-padráo diferentes sáo apresentadas a 
seguir: 


6. As probabilidades da variável aleatória normal são dadas por áreas sob a curva. A área total sob a 
curva correspondente à distribuição normal é 1. Já que a distribuição é simétrica, a área sob a curva, à 
esquerda da média, é 0,50, e a área sob a curva, à direita da média, é 0,50. 
7. As porcentagens dos valores de alguns intervalos comumente usados são: 

a. 68,3% dos valores de uma variável aleatória normal estão dentro de mais ou menos um desvio 


M padráo de sua média. 
são a base para а . Ll. _ А А 
regra empírica b. 95,4% dos valores de uma variável aleatória normal estão dentro de mais ou menos dois des- 


introduzida na vios padrão de sua média. 
Seção 3.3. c. 99,7% dos valores de uma variável aleatória normal estão dentro de mais ou menos três desvios 


padrão de sua média. 


Essas porcentagens 


A Figura 6.4 apresenta graficamente as propriedades (a), (b) e (c). 


Distribuição Normal Padrão de Probabilidade 


Dizemos que a variável aleatória que tem uma distribuição normal cuja média é zero e o desvio padrão 1 
tem uma distribuição normal padrão de probabilidade. Comumente, usamos a letra z para designar essa 
variável aleatória nórmal em particular. A Figura 6.5 representa o gráfico da distribuição normal padrão. 
Ela tem a mesma aparência geral das outras distribuições normais, porém com as propriedades especiais 
deu —-0eo-l. 


Figura 6.4 As áreas sob a curva de uma distribuição normal qualquer 
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Figura 6.5 A distribuicáo normal padráo 


Uma vez que и = бе о = 1, а fórmula da função densidade normal padrão de probabilidade é uma 
versão mais simples da Equação 6.2. 


FUNÇÃO DENSIDADE NORMAL PADRÃO DE PROBABILIDADE 
1 
fg = е" 


V2x 

À semelhança de outras variáveis aleatórias contínuas, os cálculos de probabilidade com quaisquer dis- 
tribuições normais são feitos calculando-se as áreas sob o gráfico da função densidade de probabilidade. 
Desse modo, para encontrar a probabilidade de uma variável aleatória normal estar dentro de um interva- 
lo específico, devemos calcular a área sob a curva normal ao longo desse intervalo. Quanto à distribuição 
normal padrão, as áreas sob a curva normal foram calculadas e estão disponíveis em tabelas que podem 
ser usadas no cálculo das probabilidades. A Tabela 6.1 é uma delas, a qual também está disponível com o 
título de Tabela 1 no Apêndice B e na parte interna da primeira capa deste livro. 

Para ver como se pode usar a tabela de áreas sob a curva da distribuição normal padrão (Tabela 6.1) 
para encontrar probabilidades, vamos considerar alguns exemplos. Posteriormente, veremos como essa 
mesma tabela pode ser usada para calcular as probabilidades de qualquer distribuição normal. 


Tabela 6.1 As áreas, ou probabilidades, da distribuição normal padrão 


Área, out 
probabilidade 


z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 
0! 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 
02 0,0793 0,0832 0,087] 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 
03 01179 0,217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 
04 0,1554 0,159! 0,1628 0,1664 0,1700 0,1736 0,1772 0,808 0,1844 0,1879: 
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 
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Tabela 6.1 As áreas, ou probabilidades, da distribuição normal padrão (continuação) 


LO 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 
А 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 
12 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 
з 04032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 
14 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 
15 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 
16 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 
|7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 
20 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 
21 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 
22 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 
23 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 
24 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 
25 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 
28 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 
29 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 , 0,4990 


Para começar, vejamos como podemos calcular a probabilidade de o valor z correspondente à variável 
aleatória normal padrão estar entre 0,00 e 1,00; ou seja, P(0,00 = z = 1,00). A região sombreada com uma 
cor mais escura no gráfico a seguir exibe essa probabilidade. 


P(0,00 <z < 1,00) 


Os lançamentos feitos na Tabela 6.1 fornecem a área sob a curva normal padrão entre a média z = 0 e 
um valor específico de z (veja o gráfico na parte superior da tabela). Nesse caso, estamos interessados na 
área entre z = 0 e z = 1,00. Então, precisamos encontrar na tabela o lançamento que corresponde а 
z = 1,00. Primeiramente, localizamos 1,0 na coluna à esquerda da tabela e depois encontramos 0,00 em 
sua linha superior. Examinando o corpo da tabela, descobrimos que a linha 1,0 e a coluna 0,00 se inter- 
ceptam no valor 0,3413, o qual nos dá a probabilidade desejada: P(0,00 = z = 1,00) = 0,3413. 
Apresentamos, a seguir, uma parte da Tabela 6.1, a qual nos mostra estas etapas: 
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z 0,00 0,01 0,02 

0,9 0,3159 0,3186 0,3212 
1,0 0,3413 0,3438 0,3461 
И! 0,3643 0,3665 0,3686 
12 0,3849 0,3869 0,3888 


P(0,00 = z = 1,00) 


Usando a mesma abordagem, podemos encontrar Р(0,00 = 2 = 1,25). Localizando primeiramente а 
linha 1,2 e deslocando-nos lateralmente na tabela até a coluna 0,05, encontramos P(0,00 = z = 1,25) = 
0,3944. 

Como outro exemplo do uso da tabela de áreas da distribuição normal padrão, calculamos a probabili- 
dade de obtermos um valor z = —1,00 e z = 1,00; ou seja, P(-1,00 = z < 1,00). - 

Note que já usamos a Tabela 6.1 para mostrar que a probabilidade de haver um valor z entre z = 0,00 
ez = 1,00 é 0,3413, e lembre-se de que a distribuição normal é simétrica. Desse modo, a probabilidade 
de haver um valor z entre z = 0,00 e z = —1,00 é idêntica à probabilidade de haver um valor z entre z = 
0,00 e z = +1,00. Portanto, a probabilidade de haver um valor z entre z = -00 ez = +1,00 é: 


P(-1,00 = z = 0,00) + P(0,00 = z = 1,00) = 0,3413 + 0,3413 = 0,6826 


Essa probabilidade é apresentada graficamente па figura a seguir: 


P(-1,00 = z = 0,00) = 0,3413 P(0,00 x z x 1,00) — 0,3413 


P(-1,00 x z = 1,00) = 0,6826 


-3 -2 = 0 +I +2 +3 


De maneira similar, podemos usar os valores da Tabela 6.1 para demonstrar que a probabilidade de 
haver um valor z entre —2,00 e +2,00 é 0,4772 + 0,4772 = 0,9544, e que a probabilidade de haver um 
valor z entre —3,00 e +3,00 é 0,4987 + 0,4987 = 0,9974. Já que sabemos que a probabilidade total – ou 
a área total sob a curva de qualquer variável aleatória contínua — deve ser 1,0000, a probabilidade 0,9974 
nos diz que o valor de z quase sempre estará entre —3,00 e +3,00. 

Calculamos a seguir a probabilidade de obtermos um valor z de, no mínimo, 1 58; ou seja, P(z = 1,58). 
Primeiramente, usamos a linha z = 1,5 e a coluna 0,08 da Tabela 6.1, e descobrimos que P(0,00 = z = 1,58) 
= 0,4429. Ora, como a distribuição normal de probabilidade é simétrica, sabemos que 50% da área sob a 
curva devem estar à direita da média (isto é, z = 0) e 50% da área sob a curva devem estar à esquerda da 
média. Se 0,4429 é a área entre a média e z = 1,58, então a área, ou probabilidade, correspondente a z = 
1,58 deve ser 0,5000 — 0,4429 = 0,0571. Essa probabilidade é apresentada na figura a seguir: 
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probabilidade são a 
base para a 
observação 7 
apresentada na 
página 212. 
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0,5000 da área total está t. 


0,5000 da área total Ł à direita дет = 0,00 


está à esquerda t. 
dez = 0,00 


0,4429 é a área entre t 
z= 0,00е2 = 1,58 


P(zz 1,58) 
= 0,5000 0,4429 = 0,0571 


Como outro exemplo, considere a probabilidade de а variável aleatória z assumir o valor —0,50 ou 
maior; ou seja, P(z = —0,50). Para fazermos esse cálculo, observamos que a probabilidade que procura- 
mos pode ser escrita como a soma de duas probabilidades: P(z = 0,50) = P(-0,50 = z 0,00) + P(z = 
0,00). Vimos anteriormente que P(z > 0,00) = 0,50. Além disso, sabemos também que, desde que a dis- 
tribuição normal seja simétrica, P(-0,50 = z = 0,00) = P(0,00 = z = 0,50). 

Consultando a Tabela 6.1, descobrimos que P(0,00 < 2 = 0,50) = 0,1915. Portanto, P(z > — 0,50) = 
0,1915 + 0,5000 = 0,6915. O gráfico a seguir mostra essa probabilidade: 


P(-0,50 = z = 0,00) = 0,1915 P= 0,00) = 0,50 


A área total com sombreamento Ё. 
mais escuro é P(z = —0,50) = 0,6915 


3 2 4100 + 42 43 


Calculamos a seguir a probabilidade de obtermos um valor z entre 1,00 e 1,58; ou seja, P(1,00 < < 
1,58). De nossos exemplos anteriores, sabemos que há 0,3413 de probabilidade de um valor z estar entre 
z = 0,00 e z = 1,00, e que há 0,4429 de probabilidade de um valor z estar entre z = 0,00 e z = 1,58. 
Portanto, deve haver uma probabilidade 0,4429 — 0,3413 = 0,1016 de um valor z estar entre z = 1,00 e z 
= 1,58. Desse modo, P(1,00 = z = 1,58) = 0,1016. Essa situação é mostrada graficamente па figura a 
seguir: 


P(0,00 = z = 1,58) = 0,4429 


Р(О,00 = = 1,00) = 0,3413 


Р(1,00 xz x 1,58) = 0,1016 
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Como ilustração final, encontremos um valor z tal que a probabilidade de obtermos um valor 2 mais 
elevado seja 0,10. A figura seguinte apresenta essa situação graficamente: 


A probabilidade, ou área, é igual a 0,10 


Qual é esse valor z? 


Esse cálculo é o inverso daquele que usamos nos exemplos anteriores. Anteriormente, especificamos o 
valor z de interesse e depois encontramos a probabilidade, ou área, correspondente. Nesse exemplo, forne- 
cemos a probabilidade, ou área, e pedimos que se encontre o valor z correspondente. Para fazê-lo, usamos 
a tabela de probabilidades da distribuição normal padrão (Tabela 6.1) de uma maneira bem diferente. 

Lembre-se de que o corpo da Tabela 6.1 fornece a área sob a curva existente entre a média e um valor 
de z em particular. Possuímos a informação de que a área na extremidade (cauda) superior da curva é 0,10. 
Portanto, precisamos determinar quanto da área está entre a média e o valor z de interesse. Como sabemos 
que 0,5000 da área está à direita da média, 0,5000 — 0,1000 = 0,4000 deve ser a área sob a curva existen- 
te entre a média e o valor z desejado. Fazendo uma varredura no corpo da tabela, encontramos 0,3997 
como o valor probabilístico mais próximo de 0,4000. Apresentamos a seguir a parte da tabela que forne- 
ce esse resultado. 


z 0,06 0,07 0,08 0,09 

LO 0,3554 0,3577 0,3599 0,362t 
INI 0,3770 0,3790 0,3810 0,3830 
1,2 0,3962 0,3980 0,3997 0,4015 
1,3 0,4131 0,4147 0,4162 0,4177 
1,4 0,4279 0,4292 0,4306 0,4319 


Valor da área mais próximo de 
0,4000, no corpo da tabela 


Verificando o valor 2 na coluna da extrema esquerda e na linha do topo da tabela, descobrimos que o 
valor z correspondente é 1,28. Desse modo, uma área de aproximadamente 0,4000 (0,3997, de fato) esta- 
rá entre a média e z = 1,28? Em termos da pergunta formulada originalmente, a probabilidade é de apro- 
ximadamente 0,10 de que o valor z seja maior que 1,28. 


2 Poderíamos usar interpolação no corpo da tabela para obtermos uma aproximação melhor do valor de z correspondente à área de 
0,4000. Isso nos garantiria a precisão de mais uma casa decimal e produziria um valor z igual a 1,282. Entretanto, na maioria das situa- 
ções práticas, a precisão suficiente é obtida simplesmente usando-se os valores da tabela mais próximos da probabilidade desejada. 
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Os exemplos ilustram que a tabela de áreas da distribuição normal padrão pode ser usada para se 
encontrar probabilidades associadas a valores da variável aleatória normal padrão z. 

Dois tipos de questão podem ser apresentados. O primeiro tipo especifica um valor, ou valores, de z 
e nos pede para usarmos a tabela para determinar as áreas, ou probabilidades, correspondentes. O segun- 
do fornece uma área, ou probabilidade, e nos pede para usarmos a tabela para determinar os valores z cor- 
respondentes. Assim, precisamos ser flexíveis ao usar a tabela normal padrão para responder à questão 
de probabilidade desejada. Na maioria dos casos, esboçar um gráfico da distribuição normal padrão e 
sombrear a área, ou probabilidade, apropriada, ajuda a visualizar a situação e auxilia na determinação da 
resposta correta. 


Como Calcular Probabilidades de Qualquer Distribuição Normal 


A razão para discutirmos tão extensamente a distribuição normal padrão é que as probabilidades de todas 
as distribuições normais são calculadas usando-se a distribuição normal padrão. Ou seja, quando temos 
uma distribuição normal com uma média и qualquer e um desvio padrão o qualquer, respondemos às ques- 
tões de probabilidade referentes à distribuição efetuando primeiramente a conversão para distribuição nor- 
mal padrão. Então, podemos usar a Tabela 6.1 e os valores apropriados z para encontrar as probabilidades 
desejadas. A fórmula usada para converter qualquer variável aleatória normal х com média и e desvio 
padrão о em distribuição normal padrão é apresentada a seguir: 


COMO CONVERTER EM DISTRIBUIÇÃO NORMAL PADRÃO 
2x-u 
0 


2 (6.3) 


Um valor de х igual à sua média и resulta ет z = (и — u)/o = 0. Desse modo, vemos que um valor de 
x igual à sua média џи corresponde a um valor de z em sua média 0. Suponha agora que x seja um desvio 
padrão maior que sua média; ou seja, x = u + о. Aplicando a Equação 6.3, notamos que o valor z corres- 
pondente é z = [(и + о) - lo = о/о = 1. Assim, um valor de x que está um desvio padrão acima de 
sua média corresponde a z = 1. Em outras palavras, podemos interpretar 2 como o número de desvios 
padráo que a variável aleatória normal x está afastada de sua média и. 

Para ver como essa conversão nos possibilita calcular as probabilidades de qualquer distribuição nor- 
mal, suponha que tenhamos uma distribuição normal com и = 10 е c = 2. Qual é a probabilidade de a 
variável aleatória x estar entre 10 e 14? Usando a Equação 6.3, notamos que para x = 10, z = (x - uyo = 
(10 — 10)/2 = 0 e que para x = 14, z = (14 — 10)/2 = 4/2 = 2. Então, a resposta para a nossa questão 
sobre a probabilidade de x estar entre 10 e 14 é dada pela probabilidade equivalente de z estar entre 0 e 2 
em relação à distribuição normal padrão. Em outras palavras, a probabilidade que procuramos é a proba- 
bilidade de a variável aleatória x estar entre sua média e dois desvios padrão acima da média. Usando z = 
2,00 e a Tabela 6.1, observamos que a probabilidade é 0,4772. Por isso, a probabilidade de x estar entre 
10e 14 0,4772. 


O Problema da Grear Tire Company 


Voltamo-nos agora a uma aplicação da distribuição normal. Suponha que a Grear Tire Company tenha 
desenvolvido um novo pneu radial com cinturão de aço que será vendido por meio de uma cadeia nacional 
de discount stores. Uma vez que esse tipo de pneu é um novo produto, os gerentes da Grear acreditam que 
a durabilidade (em termos de milhas rodadas) oferecida com o pneu será um fator importante na aceitação 
do produto. Antes de fechar os termos do contrato de garantia de durabilidade do pneu, os gerentes da Grear 
desejam obter informações de probabilidade a respeito do número de milhas que os pneus durarão. 

Dos testes reais de estrada com os pneus, a equipe de engenharia da Grear estima que a durabilidade 
média dos pneus é и = 36.500 milhas (58.741 quilômetros) e que o desvio padrão é o = 5.000. Além 
disso, os dados coletados indicam que a distribuição normal é uma hipótese razoável. 

Qual porcentagem dos pneus possivelmente duraria mais de 40 mil milhas (64.373 quilômetros)? Em 
outras palavras, qual é a probabilidade de a durabilidade do pneu ultrapassar 40 mil milhas? Essa questão 
pode ser respondida encontrando-se a área da região com sombreamento mais forte na Figura 6.6. 


3 NT: Discount store — Literalmente, “loja de descontos”. Estabelecimento comercial (geralmente, de cadeias de lojas) que vende 
seus produtos por preços mais baixos. 
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Para x = 40.000, temos 


х-и _ 40.000 – 36.500 3.500 0,70 
o 5.000 5.000 


Consultemos agora a parte inferior da Figura 6.6. Notamos que um valor x = 40.000 na distribuição 
normal da Grear Tire corresponde a um valor z = 0,70 na distribuição normal padrão. Usando a Tabela 
6.1, observamos que a área entre a média e z = 0,70 é 0,2580. Consultando novamente a Figura 6.6, obser- 
vamos que a área entre x = 36.500 e x = 40.000 na distribuição normal da Grear Tire também é a mesma 
(0,2580). Desse modo, 0,5000 — 0,2580 = 0,2420 é a probabilidade de x ultrapassar 40.000. Podemos con- 
cluir que aproximadamente 24,2% dos pneus terão uma durabilidade maior que 40 mil milhas. 


Figura 6.6 Distribuição da durabilidade dos pneus da Grear Tire Company em termos de milhas 


o = 5.000 


P(x > 40.000) = ? 


A = 36.500 


EO aa —— ————— 
0 070 E 
Nota: z = Ü corresponde ad ч Nota: z = 0,70 corresponde Ё. 
ах = u = 36.500 ах = 40.000 


Suponhamos agora que а Grear esteja considerando a possibilidade de dar uma garantia que concede 
um desconto na troca de pneus se os originais não resistirem ao número de milhas estipulado na garantia. 
Qual deve ser o número de milhas coberto pela garantia levando-se em conta que a Grear quer que não 
mais de 1096 dos pneus se habilitem à garantia do desconto? Essa questáo é interpretada graficamente na 
Figura 6.7. 

De acordo com a Figura 6.7, 40% da área deve estar entre a média e o número de milhas desconheci- 
do a ser coberto pela garantia. 
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Figura 6.7 Garantia de desconto da Grear Tire Company 


с = 5.000 


1096 dos pneus se qualificam 
à garantia de desconto f 


Validade da garantia em milhas = ? и = 36.500 


Procuramos 0,4000 no corpo da Tabela 6.1. Por simetria, a área procurada está aproximadamente 1,28 
desvios padrão à esquerda da média. Ou seja, z = —1,28 é o valor da variável aleatória normal padrão cor- 
respondente à validade da garantia desejada em termos de milhas na distribuição normal da Grear Tire 
Company. Para encontrar o valor de x correspondente a z = —1,28, calculamos 


2= — 7-128 
х— и = – 1,280 
х= u — 1,280 


Sendo и = 36.500 е о = 5.000, 
х = 36.500 — 1,28(5.000) = 30.100 


Assim, uma garantia de 30.100 milhas (48.280 km) cumprirá o requisito de que aproximadamente 10% 


Com a garantia dos pneus se habilitem à garantia. Talvez, com essa informação, a empresa possa fixar a garantia de dura- 
Paaa ет bilidade de seus pneus em 30 mil milhas. 
(482801 т), а Novamente, constatamos o importante papel que as distribuigóes de probabilidade desempenham em 


porcentagem rea termos de produzir informações para a tomada de decisões. Ou seja, assim que uma distribuição de proba- 
apta à garantia será bilidade é estabelecida para uma aplicação em particular, ela pode ser usada rápida e facilmente para se 
de 9,68%. obter informações a respeito do problema. A probabilidade não determina a recomendação de uma decisão 
diretamente, mas fornece informações que ajudam o tomador de decisão a entender melhor os riscos e as 
incertezas associados ao problema. Por fim, essas informações podem auxiliá-lo a tomar uma boa decisão. 


Exercícios 


Métodos 


8. Usando a Figura 6.4 como guia, esboce a curva normal de uma variável aleatória x que tem a média 
и = 100 e desvio padrão o = 10. Rotule o eixo horizontal com valores 70, 80, 90, 100, 110, 120 e 130. 


9. Uma variável aleatória normalmente se distribui com uma média de и = 50 e um desvio padrão de o 
= 5, 
а, Esboce uma curva normal da função densidade de probabilidade. Rotule o eixo horizontal com os valo- 
res 35, 40, 45, 50, 55, 60 e 65. A Figura 6.4 mostra que a curva normal quase toca o eixo horizontal 
em três desvios padrão abaixo e em três desvios padrão acima da média (nesse caso, em 35 e 65). 
b. Qual é a probabilidade de a variável aleatória assumir um valor entre 45 e 55? 
c. Qual é a probabilidade de a variável aleatória assumir um valor entre 40 e 60? 
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10. 


11. 


12. 


13. 


14. 


15. 


16. 


Trace um gráfico da distribuição normal padrão. Rotule o eixo horizontal nos valores 3, –2, -1, 0, 
1, 2 e 3. Depois use a tabela de probabilidades da distribuição normal padrão para calcular as seguin- 
tes probabilidades: 

a.P(0xzxl) 

b. PO = < 1,5): 

с.Р(0<2 < 2). 

d. P(0 < z < 2,5), 

Dado que 2 é uma variável aleatória normal padrão, calcule as seguintes probabilidades: 

a P(-1l € z x 0). 

b. P(-1,5 = z = 0). 

c. P(-2 <2 <0) 

d, Р(—2,5 = 25% 0). 

e. P3 <z s 0). 

Dado que z é uma variável aleatória normal padrão, calcule as seguintes probabilidades: 

a. P(0 = z = 0,83). 

b. P(-1,57 = z < 0). 

c. P(z > 0,44). 

d. P(z = -0,23). 

e. P(z « 1,20). 

f. P(z = 0,71). 

Dado que z é uma variável aleatória normal padráo, calcule as seguintes probabilidades: 

a. P(-1,98-x z = 0,49). 

b. Р(0,52 = z 1,22). 

c. PC175 = z S -1,04). 

Dado que z é uma variável aleatória normal padráo, encontre z para cada uma das situagóes: 


а. À área entre O e z é 0,4750. 

b. A área entre 0 e z é 0,2291. 

c. А área à direita de z é 0,1314. 

d. A área à esquerda de z é 0,6700. 


Dado que z é uma variável aleatória normal padrão, encontre z para cada uma das situações: 


a. À área à esquerda de z é 0,2119. 

b. A área entre — e z é 0,9030. 

C. À área entre — e z é 0,2052. 

d. A área à esquerda de z é 0,9948. 

е. A área à direita de z é 0,6915. 

Dado que z é uma variável aleatória normal, encontre 2 para cada uma das situações: 
a. А área à direita de z é 0,01. 

b. A área à direita de z é 0,025. 


C. А área à direita de z é 0,05. 
d. А área à direita de z é 0,10. 


Aplicações 


17. 


A quantia média que pais e filhos gastaram por criança na compra de roupas para o retorno às aulas 

no outono de 2001 foi de US$ 527 (CNBC, 5 de setembro de 2001). Suponha que o desvio padrão 

seja US$ 160 e que a quantia gasta esteja distribuída normalmente. 

a. Qual é a probabilidade de a quantia gasta com uma criança escolhida aleatoriamente ser superior a 
US$ 700? 

b. Qual é a probabilidade de a quantia gasta com uma criança escolhida aleatoriamente ser inferior a 
US$ 100? 

c. Qual é a probabilidade de a quantia gasta com uma criança escolhida aleatoriamente estar entre 
US$ 450 e US$ 700? 

d. Qual é a probabilidade de a quantia gasta com uma criança escolhida aleatoriamente não ultrapas- 
sar US$ 300? 
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18. 


19. 


A média de preço das ações das empresas que compõem a S&P 500 é US$ 30, e o desvio padrão é 
05$ 8,20 (Business Week, edição especial anual, primavera de 2003). Suponha que os preços das 
ações se distribuam normalmente. 

a. Qual é a probabilidade de uma empresa ter um preço de, no mínimo, US$ 40 para suas ações? 

b. Qual é a probabilidade de uma empresa ter um preço não superior a US$ 20 para suas ações? 

c. Qual deve ser o preço das ações para que a empresa seja incluída entre as 10% maiores? 


A média pluviométrica durante o mês de abril em Dallas, Texas, é de 88,9 milímetros (The World 
Almanac, 2000). Suponha que uma distribuição normal seja aplicável e que o desvio padrão seja de 
20,32 mm. 


a. Em qual porcentagem do tempo a quantidade de chuva ultrapassou 127 mm em abril? 

b. Em qual porcentagem do tempo a quantidade de chuva foi inferior a 76,2 mm em abril? 

c. Um mês é classificado como extremamente úmido se a quantidade de chuva se situar nos 10% 
superior em relação a esse mês. Quanta chuva deve cair para que um més de abril seja classifica- 
do como extremamente úmido? 


20. Em janeiro de 2003 o trabalhador norte-americano passou em média 77 horas conectado à internet 


21. 


22. 


23. 


24. 


enquanto se encontrava no trabalho (CNBC, 15 de marco de 2003). Suponha que os tempos estejam 
normalmente distribuídos e que o desvio padráo seja de 20 horas. 


а. Qual é a probabilidade de um trabalhador escolhido aleatoriamente passar menos de 50 horas 
conectado à internet? 

b. Qual porcentagem de trabalhadores passaram mais de 100 horas conectados à internet? 

c. Uma pessoa é classificada como forte usuário se estiver entre os 20% que fazem mais uso. Quantas 
horas um trabalhador deve manter-se conectado à internet para ser classificado como forte usuário? 


Uma pessoa deve obter uma pontuação entre os 2% mais bem classificados da população em um teste 
de QI para afiliar-se à Mensa, uma sociedade internacional de pessoas com QI elevado (US Airways 
Attache, setembro de 2000). Se as pontuações de QI forem normalmente distribuídas com uma média 
100 e desvio padrão igual a 15, qual pontuação uma pessoa deve obter para poder afiliar-se à Mensa? 


De acordo com o Bureau of Labor Statistics, a remuneração média por semana dos trabalhadores 
norte-americanos do setor de produção foi de US$ 441,84 (The World Almanac, 2000). Suponha que 
os dados disponíveis indiquem que os salários dos trabalhadores do setor de produção estejam nor- 
malmente distribuídos, com um desvio padrão de US$ 90. 


a. Qual é a probabilidade de um trabalhador ter ganho um salário entre US$ 400 e US$ 500? 

b. Quanto um trabalhador do setor de produção teve de ganhar para se colocar entre os 20% que rece- 
beram os maiores salários? 

c. Em relação a um trabalhador do setor de produção escolhido aleatoriamente, qual é a probabilida- 
de de ele ter ganho menos de US$ 250 por semana? 


O tempo necessário para concluir um exame final em determinado curso universitário está distribuí- 

do normalmente com uma média de 80 minutos e desvio padrão de dez minutos. Responda às seguin- 

tes questões: É 

a. Qual é a probabilidade de alguém concluir o exame em uma hora ou menos? 

b. Qual é a probabilidade de um estudante concluir o exame em mais de 60 minutos, porém, menos 
de 75 minutos? 

c. Suponha que a classe tenha 60 alunos e que a duração do exame seja de 90 minutos. Quantos estu- 
dantes você acha que não conseguirão concluir o exame no tempo determinado? 

O volume diário (milhões de ações) de títulos negociados na Bolsa de Valores de Nova York durante 

12 dias de agosto e setembro é mostrado a seguir (Barron's, 7 de agosto de 2000, 4 de setembro de 

2000 e 11 de setembro de 2000). d 


917 983 1.046 
944 723 783 
813 1.057 766 
836 992 973 


A distribuição de probabilidade do volume de negócios é aproximadamente normal. 
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a. Calcule a média e o desvio padrão do volume diário de negócios para usá-los como estimativas da 
média da população e do desvio padrão. 

b. Qual é a probabilidade de, em determinado dia, o volume de negócios ser inferior a 800 milhões 
de ações? 

c. Qual é a probabilidade de o volume de negócios ultrapassar um bilhão de ações? 

d. Se a Bolsa de Valores quiser emitir um release sobre os 5% melhores dias de negócios, qual volu- 
me motivará um release? 


25. O preço médio dos ingressos para um jogo de futebol do Washington Redskins na temporada de 2001 
foi de US$ 81,89 (USA Today, 6 de setembro de 2001). Com os custos adicionais de estacionamen- 
to, alimentação, bebidas e souvenirs, o custo médio para uma família de quatro pessoas assistir ao 
jogo totalizava US$ 442,54. Suponha que se aplique, a distribuição normal e que o desvio padrão seja 
US$ 65,00. ' 

а. Qual é a probabilidade de uma família de quatro pessoas gastar mais de US$ 400,00? 
b. Qual é a probabilidade de uma família de quatro pessoas gastar US$ 300,00 ou menos? ~ 
c. Qual é a probabilidade de uma família de quatro pessoas gastar entre US$ 400,00 e US$ 500,00? 


6.3 APROXIMAÇÃO NORMAL ÀS PROBABILIDADES BINOMIAIS 


Na Seção 5.4, apresentamos a distribuição binomial de probabilidade discreta. Lembre-se de que um expe- 
rimento binomial consiste em uma sequência de и ensaios independentes e idênticos, tendo cada ensaio dois 
resultados possíveis: um sucesso ou um fracasso. A probabilidade de um sucesso em um ensaio é a mesma 
para todos os ensaios e é denotada por p. A variável aleatória binomial é o número de sucessos obtidos nos 
n ensaios e as questões probabilísticas dizem respeito à probabilidade de x sucessos nos n ensaios. 

Quando o número de ensaios torna-se grande, é difícil calcular a função binomial de probabilidade 
manualmente ou com o auxílio de uma calculadora. Nos casos em que np = 5 e n(1 — p) > 5, a distribui- 
ção normal fornece uma aproximação fácil de usar às probabilidades binomiais. Quando usamos a apro- 
ximação normal à probabilidade binomial, ajustamos  — np e Vnp(1 — p) na definição da curva normal. 

Vamos ilustrar a aproximação normal à probabilidade binomial supondo que uma empresa privada tem 
em seu histórico o fato de cometer erros em 10% de suas faturas. Foi tomada uma amiostra de cem fatu- 
ras, e queremos calcular a probabilidade de 12 faturas conterem erros. Ou seja, queremos encontrar a pro- 
babilidade binomial de 12 sucessos em cem ensaios. Ao aplicar a aproximação normal nesse caso, deter- 
minamos que и = пр = (100X0,10) = 10 e Vnp(1 — p) = У(100)0,1)(0,9) = 3. Uma distribuição normal 
соти = 10e o = 3 é mostrada na Figura 6.8. 

Lembre-se de que, quando se trata de uma distribuição contínua de probabilidade, as probabilidades 
são calculadas como áreas sob a função densidade de probabilidade. Conseqüentemente, a probabilidade 
de um valor único qualquer para a variável aleatória é zero. Desse modo, para fazermos a aproximação à 
probabilidade binomial de 12 sucessos, calculamos a área sob a curva normal correspondente, entre 11,5 
e 12,5. O 0,5 que adicionamos e subtraímos de 12 é chamado fator de correção de continuidade. Ele é 
introduzido porque utilizamos uma distribuição contínua para aproximar uma distribuição discreta, Então, 
o Р(х = 12) da distribuição binomial discreta é aproximado por P(11,5 = x = 12,5), da distribuição nor- 
mal contínua. 
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Figura 6.8 Aproximação normal а uma distribuição binomial de probabilidade, com n = 100 ep = 0,10 
mostrando a probabilidade de 12 erros 


Área — 0,1052 


4-00 12,5 


Efetuando a conversão para a distribuição normal padrão para calcularmos P(11,5 = x x 12,5), obte- 
mos: 


х=й _ 12,5 – 10,0 


z= = = 0,83 para x = 12,5 
o 3 
e 
= 11,5 — 10,0 
= е. 0,50 para x = 11,5 


Na Tabela 6.1, descobrimos que a área sob a curva (na Figura 6.8) entre 10 e 12,5 é 0,2967. Analogamente, 
a área sob a curva entre 10 e 11,5 é 0,1915. Portanto, a área entre 11,5 e 12,5 é 0,2967 — 0,1915 = 0,1052. 
A aproximação normal à probabilidade de 12 sucessos em 100 ensaios é 0,1052. 

Como outro exemplo, suponha que queiramos calcular a probabilidade de 13 erros ou menos em uma 
amostra de 100 faturas. A Figura 6.9 mostra a área sob a curva normal que faz a aproximação a essa pro- 
babilidade. Observe que o uso do fator de correção de continuidade tem como conseqüéncia o fato de o 
valor 13,5 ser usado para calcular a probabilidade desejada. O valor z correspondente a x = 13,5 é: 


13,5 — 104 
229-100 ii 
3,0 


A Tabela 6.1 mostra que a área sob a curva normal padrão entre O e 1,17 é 0,3790. A área sob a curva 
normal que faz a aproximação à probabilidade de 13 erros ou menos é dada pela parte sombreada do grá- 
fico apresentado na Figura 6.9. A probabilidade é 0,3790 + 0,5000 = 0,8790. 
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Figura 6.9 Aproximação normal a uma distribuição binomial de probabilidade, com n = 100 ep = 0,10 


mostrando a probabilidade de 13 erros ou menos 


A probabilidade +. 
de 13 erros ou menos Ł 
é 0,8790 


_ Xx 
10 13.5 
Exercícios 
Métodos 
26. Uma distribuição binomial de probabilidade tem p = 0,20 e n = 100. 


27. 


а. Qual é a média e qual é о desvio padráo? 

b. Essa é uma daquelas situagóes em que as probabilidades binomiais podem ser aproximadas pela 
distribuição normal de probabilidade? Explique. 

c. Qual é a probabilidade de haver exatamente 24 sucessos? 

d. Qual é a probabilidade de 18 a 22 sucessos? 

e. Qual é a probabilidade de 15 sucessos ou menos? 

Suponha que uma distribuição binomial de probabilidade tem p = 0,60 e n = 200. 

a. Qual é a média e qual é o desvio padrão? 

b. Essa é uma daquelas situações em que as probabilidades binomiais podem ser aproximadas pela 
distribuição normal de probabilidade? Explique. 

c. Qual é a probabilidade de 100 a 110 sucessos? 

d. Qual é a probabilidade de 130 sucessos ou mais? 

e. Qual é a vantagem de usarmos a distribuição normal de probabilidade para aproximar as probabi- 
lidades binomiais? Use o item (d) para explicar a vantagem. 


Aplicações 


28. 


29. 


O presidente Bush propôs a eliminação dos impostos sobre os dividendos pagos aos acionistas sob a 
alegação de que eles resultam em dupla tributação. Os rendimentos usados para pagar os dividendos 
já são tributados às corporações. Uma pesquisa sobre essa questão revelou que 47% dos norte-ame- 
ricanos são favoráveis à proposta. Por partido político, 64% dos republicanos e 20% dos democratas 
são favoráveis à proposta (Investor's Business Daily, 13 de janeiro de 2003). Suponha que um grupo 
de 250 norte-americanos se reúna para ouvir uma palestra sobre a proposta. 


a. Qual é a probabilidade de pelo menos a metade do grupo ser favorável à proposta? 

b. Você descobre depois que 150 republicanos e 100 democratas estão presentes. Agora, qual é a sua 
estimativa do número esperado de pessoas que são favoráveis à proposta? 

c. Um orador favorável à proposta será mais bem recebido por esse grupo do que alguém contrário à 
proposta? 

A taxa de desemprego é 5,8% (Bureau of Labor Statistics, www.bls.gov, 3 de abril de 2003). Suponha 

que cem pessoas aptas ao trabalho sejam selecionadas aleatoriamente. 


a. Qual é o número esperado de pessoas desempregadas? 

b. Qual é a variância e o desvio padrão do número de desempregados? 

c. Qual é a probabilidade de exatamente seis estarem desempregados? 

d. Qual é a probabilidade de pelo menos quatro estarem desempregados? 
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30. Ao assinar um contrato de cartão de crédito você o lê cuidadosamente? Em uma pesquisa realizada 
pela FindLaw.com, foi feita a seguinte pergunta às pessoas: “Quão minuciosamente você lé um con- 
trato de cartão de crédito?” (USA Today, 6 de outubro de 2003). As descobertas revelaram que 44% 
lêem cada palavra, 33% lêem o suficiente para entender o contrato, 11% dão apenas uma olhada e 4% 
não o lêem absolutamente. 

a. Em relação a uma amostra de 500 pessoas, quantas você acha que diriam que lêem cada palavra de 
um contrato de cartão de crédito? 

b. Em relação a uma amostra de 500 pessoas, qual é a probabilidade de 200 ou menos dizerem que 
lêem cada palavra de um contrato de cartão de crédito? 

c. Em relação a uma amostra de 500 pessoas, qual é a probabilidade de pelo menos 15 dizerem que 
não lêem os contratos de cartão de crédito? 


31. Um hotel da estância turística de Myrtle Beach tem 120 quartos. Nos meses de primavera, a ocupa- 
ção dos quartos do hotel é de aproximadamente 75%. 
a. Qual é a probabilidade de pelo menos metade dos quartos estarem ocupados em determinado dia? 
b. Qual é a probabilidade de 100 ou mais quartos estarem ocupados em determinado dia? 
c. Qual é a probabilidade de 80 ou menos quartos estarem ocupados em determinado dia? 


6.4 DISTRIBUIÇÃO EXPONENCIAL DE PROBABILIDADE 


A distribuição exponencial de probabilidade pode ser usada para variáveis aleatória, como os interva- 
los de tempo de chegada dos carros a um lava-rápido, o tempo necessário para carregar um caminhão, a 
distância entre defeitos importantes em uma rodovia e assim por diante. A função densidade exponencial 
de probabilidade é apresentada a seguir: 


FUNÇÃO DENSIDADE EXPONENCIAL DE PROBABILIDADE 


ғо) = те” parax 20,420 (6.4) 


Como um exemplo da distribuição exponencial, suponha que x represente o tempo de carga de um 
caminhão no terminal de carga da Schips e que ele siga esse tipo de distribuição. Se o valor médio, ou a 
média, do tempo de carga for 15 minutos (и = 15), a função densidade de probabilidade apropriada será: 


1 
m „-Х/15 
fe» = 15° 


A Figura 6.10 é o gráfico dessa fungáo densidade de probabilidade. 


Como Calcular Probabilidades da Distribuicáo Exponencial 


À semelhança do que ocorre com qualquer distribuição contínua de probabilidade, a área sob a curva cor- 
respondente a um intervalo fornece a probabilidade de a variável aleatória assumir um valor nesse inter- 
valo. No exemplo do terminal de carga da Schips, a probabilidade de o carregamento de um caminháo 
demandar seis minutos ou menos (x x 6) é definida como a área sob a curva representada na Figura 6.10, 
dex = 0 ах = 6. Similarmente, a probabilidade de o tempo de carregamento de um caminhão demandar 
18 minutos ou menos (x = 18) é a área sob a curva, de x = О ax = 18. ` 

Observe também que a probabilidade de o tempo de carregamento de um caminháo se situar entre seis 
е 18 minutos (6 = x = 18) é dada pela área sob a curva, de x = бах = 18. : 

Para calcular probabilidades exponenciais como as que acabamos de descrever, usamos a fórmula apre- 
sentada a seguir. Ela fornece a probabilidade cumulativa de obtermos um valor menor ou igual a um valor 
específico de x, denotado por xy, para a variável aleatória exponencial. 
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Figura 6.10 Distribuição exponencial de probabilidade referente ao exemplo do terminal de carga da Schips 


fo) 


0 5 5 25 35 45 
Tempo de Carregamento 


DISTRIBUICÁO EXPONENCIAL: PROBABILIDADES CUMULATIVAS 
P E х) = 1 е7 (6.5) 


Em relação ao exemplo do terminal de carga da Schips, x = tempo de carregamento еи = 15, о que nos dá: 


Р(х €x) -1-—e7/5 
Portanto, a probabilidade de o carregamento de um caminháo demandar seis minutos ou menos é: 


Р(х = б) = 1 — е 95 =0,3297 


A Figura 6.11 apresenta a área, ou a probabilidade, de um tempo de carregamento de seis minutos ou menos. 
Usando a Equação 6.5, calculamos a probabilidade de se carregar um caminhão em 18 minutos ou menos. 


Р(х = 18) = 1 — е718/5 = 0,6988 


Desse modo, а probabilidade de о tempo de carregamento do um caminhão demandar entre seis e 18 
minutos é igual a 0,6988 — 0,3297 — 0,3691. As probabilidades correspondentes a qualquer outro interva- 
lo podem ser calculadas de maneira similar. 


Figura 6.11 Probabilidade de ocorrer um tempo de carregamento igual a seis minutos ou menos 


fe 


P(x = 6) = 0,3297 
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No exemplo anterior, o tempo médio necessário para carregar um caminhão é и = 15 minutos. Uma 
propriedade da distribuição exponencial é que tanto a média quanto o desvio padrão da distribuição são 
iguais. Assim, o desvio padrão do tempo necessário para carregar um caminhão é s = 15 minutos. A 
variância é g? = (15)2 = 225. 


Relações entre a Distribuição de Poisson e a Distribuição Exponencial 


Na Seção 5.5 introduzimos a distribuição de Poisson como uma distribuição de probabilidade discreta que 
muitas vezes é útil para examinarmos o número de ocorrências de um evento ao longo de um intervalo 
específico de tempo ou de espaço. Lembre-se de que a função de probabilidade de Poisson é: 


ue 
x! 


fe = 


em que 
и = o valor esperado, ou número médio, de ocorrências 
ao longo de um intervalo específico 


A distribuição exponencial contínua de probabilidade está relacionada à distribuição discreta de 
Poisson. Se a distribuição de Poisson fornece uma descrição apropriada do número de ocorrências por 
intervalo, a distribuição exponencial fornece uma descrição da extensão do intervalo entre as ocorrências. 

Para ilustrar essa relação, suponha que o número de carros que chegam a um lava-rápido durante uma 
hora seja descrito por uma distribuição de probabilidade de Poisson, com uma média de dez carros por 
hora. A função de probabilidade de Poisson que dá a probabilidade de x chegadas por hora é: 


103719 
x! 


Јо) = 


Uma vez que o número médio de chegadas é de dez carros por hora, o tempo médio entre os carros que 
chegam é: 


T .. 0,1 hora/carro 
ora —' 10 carros 


Desse modo, a distribuição exponencial correspondente que descreve o tempo entre as chegadas tem 
uma média de и = 0,1 hora por carro; em conseqüéncia, a função densidade exponencial de probabilida- 
de apropriada é: 


=L om 10x 
Дх) o1 10е- 


» 


NOTAS Е COMENTÁRIOS 


Como podemos observar na Figura 6.10, a distribuição exponencial tem uma inflexão à direita. De 
fato, a medida de assimetria das distribuições exponenciais é 2. A distribuição exponencial nos dá 
uma boa idéia de como se apresenta uma distribuição assimétrica. 


Exercícios 


Métodos 


32. Considere a seguinte função densidade exponencial de probabilidade. 
1 
fe = ge para х > 0 


а. Encontre Р(х = 6). 
b. Encontre Р(х = 4). 
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33. 


c. Encontre Р(х > 6). 
d. Encontre P(4 = x = 6). 
Considere a seguinte função densidade exponencial de probabilidade. 


1 
ғ) = 3 е8  paaxz0 


a. Escreva a fórmula para Р(х = xo). AUTOTESTE 


b. Encontre P(x 2). 
c. Encontre Р(х > 3). 
d. Encontre Р(х = 5). 
e. Encontre P(2 = x = 5). 


Aplicações 


34, 


35. 


36. 


37. 


38. 


A Internet Magazine monitora provedores de internet (ISPs) e divulga estatísticas sobre seu desem- 
penho. O tempo médio para fazer download (baixar) de uma página da rede de provedores de acesso 
gratuito é aproximadamente 20 segundos quando se trata de páginas da Web européias (Internet 
Magazine, janeiro de 2000). Suponha que o tempo para baixar uma página da internet siga uma dis- 
tribuição exponencial. 

a. Qual é a probabilidade de ser necessário menos de 10 segundos para baixar uma página da Web? 

b. Qual é a probabilidade de ser necessário mais de 20 segundos para baixar uma página da Web? 

c. Qual é a probabilidade de ser necessário entre 10 e 30 segundos para baixar uma página da Web? 


ед 


O tempo entre а chegada dos veículos а determinado cruzamento segue uma distribuição exponencial 
AUTOTESTE 


de probabilidade, com uma média de 12 segundos. 


а. Apresente um esboço dessa distribuição exponencial de probabilidade. 

b. Qual é a probabilidade de o tempo de chegada entre os veículos ser de 12 segundos ou menos? 
c. Qual é a probabilidade de o tempo de chegada entre os veículos ser de 6 segundos ou menos? 
d. Qual é a probabilidade de transcorrer 30 segundos ou mais entre a chegada dos veículos? 


A durabilidade (em horas) de um dispositivo eletrônico é uma variável aleatória com a seguinte fun- 
ção densidade exponencial de probabilidade: 


ғо) = LR para x = 0 


а. Qual é durabilidade média do dispositivo? 
b. Qual é a probabilidade de o dispositivo falhar nas primeiras 25 horas de operação? 
c. Qual é a probabilidade de o dispositivo operar 100 horas ou mais antes de falhar? 


А Sparagowski & Associates realizou um estudo dos tempos de atendimento nos guichés de lancho- 
netes com serviços de drive-thru. O tempo médio entre a colocação de um pedido e o seu recebimen- 
to no McDonald's foi de trés minutos e 18 segundos (The Cincinnati Enquirer, 9 de julho de 2000). 
Filas de espera como estas freqüentemente seguem uma distribuicáo exponencial de probabilidade. 


а. Qual é a probabilidade de o tempo de atendimento a um cliente ser inferior a 2 minutos? 

b. Qual é a probabilidade de o tempo de atendimento a um cliente ser superior a 5 minutos? 

с. Qualé a probabilidade de o tempo de atendimento a um cliente ser superior a 3 minutos e 18 segun- 
dos? 

De acordo com uma pesquisa intitulada Primary Reader Survey, promovida pela revista Barron's, 

30 é o námero médio anual de transagóes de investimentos feitas por um assinante (www. 

barronsmag.com, 28 de julho de 2000). Suponha que o número de transações em um ano siga a dis- 

tribuicáo de probabilidade de Poisson. 

a. Apresente a distribuição de probabilidade correspondente ao intervalo de tempo entre as transações 
de investimento. 

b. Qual é a probabilidade de não ocorrer nenhuma transação durante o mês de janeiro em relação a 
um assinante em particular? 

c. Qual é a probabilidade de a próxima transação ocorrer dentro da próxima quinzena em relação a 
um assinante em particular? 


230 


Estatística Aplicada à Administração e Economia 


Resumo 


Este capítulo ampliou a discussão das distribuições de probabilidade para o caso das variáveis aleatórias 
contínuas. A principal diferença conceitual entre as distribuições discretas e as distribuições de probabili- 
dade contínuas envolve o método de se calcular probabilidades. No que refere às distribuições discretas, a 
função de probabilidade f(x) fornece a probabilidade de a variável aleatória x assumir valores diversos. 
Quanto às distribuições contínuas, a função densidade de probabilidade f(x) não produz valores probabi- 
lísticos diretamente. Ao contrário, as probabilidades são fornecidas pelas áreas sob a curva ou gráfico da 
função densidade de probabilidade f(x). Uma vez que a área sob a curva acima de um ponto simples é zero, 
observamos que a probabilidade de qualquer valor em particular também é zero, quando se trata de uma 
variável aleatória contínua. 

Três distribuições contínuas de probabilidade foram tratadas detalhadamente: a distribuição uniforme, 
a distribuição normal e a distribuição exponencial. A distribuição normal é amplamente empregada na 
inferência estatística e será extensamente usada no restante deste livro. 


Glossário 


Função densidade de probabilidade Uma função usada para calcular as probabilidades de uma variável 
aleatória contínua. A área sob o gráfico de uma função densidade de probabilidade ao longo de um 
intervalo representa a probabilidade. 

Distribuição uniforme de probabilidade Uma distribuição contínua de probabilidade em que a probabi- 
lidade de a variável aleatória assumir um valor em um intervalo qualquer é a mesma para cada inter- 
valo de igual extensão. 

Distribuição normal de probabilidade Uma distribuição contínua de probabilidade. Sua função densida- 
de de probabilidade tem a forma de sino е é determinada por sua média и e pelo desvio padrão o. 
Distribuição normal padrão de probabilidade Uma distribuição normal com média O (zero) e desvio 

padrão 1. 

Fator de correção de continuidade O valor 0,5 que é adicionado e/ou subtraído de um valor de x quan- 
do a distribuição normal contínua de probabilidade é utilizada para fazer a aproximação à distribuição 
binomial discreta. 

Distribuição exponencial de probabilidade Uma distribuição contínua de probabilidade que é útil para 
calcular probabilidades referentes ao tempo necessário para se concluir uma tarefa. 


Fórmulas-Chave 
Função Densidade Uniforme de Probabilidade 


1 
paraa €x xb 


№) = {Б-а (6.1) 
0 ошто ponto qualquer 
Funcáo de Densidade Normal de Probabilidade 
fo = e curas? (6.2) 
о\2л 
Como Converter em Distribuição Normal Padrão 
2= Ё (6.3) 
Funcáo Densidade Exponencial de Probabilidade 
1 
fo = utc рага x= 0,420 (6.4) 


Distribuicáo Exponencial: Probabilidades Cumulativas 
Р(х = ху) = 1 — ее (6.5) 
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Exercícios Suplementares 


39. 


40. 


41. 


42. 


43. 


Uma executiva de negócios, transferida de Chicago para Atlanta, precisa vender rapidamente sua casa 
em Chicago. O empregador da executiva ofereceu-se para comprar a casa por US$ 210 mil, mas a 
oferta se encerra no fim da semana. А executiva nào tem atualmente uma oferta melhor, mas tem con- 
dições de deixar a casa à venda por mais um mês. Em virtude das conversas que manteve com seu 
corretor de imóveis, a executiva acredita que o preço que obterá se deixar a casa à venda por mais um 
mês se distribui uniformemente entre US$ 200 mil e US$ 225 mil. 


a. Se ela deixar a casa à venda por mais um mês, qual é a expressão matemática correspondente à fun- 
ção densidade de probabilidade do preço de venda? 

b. Se ela deixar a casa à venda por mais um mês, qual é a probabilidade de vir a obter, no mínimo, 
US$ 215 mil pela casa? 

c. Se ela deixar a casa à venda por mais um mês, qual é a probabilidade de vir a obter menos de 
US$ 210 mil? 

d. A executiva deve deixar a casa à venda por mais um mês? Por quê? 


О U.S. Bureau of Labor Statistics relata que o dispêndio anual médio em alimentação e bebidas refe- 
rente a todas as famílias é US$ 5.700 (Money, dezembro de 2003). Suponha que os gastos anuais com 
alimentação e bebidas tenham uma distribuição normal e que o desvio padrão seja US$ 1.500. 


a. Quanto 10% das famílias que têm o menor nível de gastos despendem anualmente em alimentação 
e bebidas? 

b. Qual porcentagem de famílias gasta anualmente mais de US$ 7 mil com alimentação e bebidas? 

c. Quanto 5% das famílias que têm o maior nível de gastos despendem anualmente em alimentação 
e bebidas? 


A Motorola usou a distribuição normal para determinar a probabilidade de defeitos e o número de 
defeitos esperados em um processo de produção. Suponha que um processo de produção produza itens 
com um peso médio de 10 onças (283,49 g). Calcule a probabilidade de ocorrer um defeito e o núme- 
ro esperado de defeitos em uma rodada de produção de mil unidades, nas seguintes situações: 


a. O desvio padrão do processo é 0,15 e o controle do processo foi ajustado em mais ou menos um 
desvio padrão. As unidades com pesos inferiores a 9,85 onças (279,24 g) ou superiores a 10,15 
onças (287,74 g) serão classificadas como defeitos. 

b. Através de melhorias no projeto dos processos, o desvio padrão do processo pode ser reduzido para 
0,05. Suponha que o controle do processo permaneça o mesmo, com os pesos inferiores a 9,85 
onças (279,24 g) ou superiores a 10,15 onças (287,74 g) sendo considerados defeitos. 

c. Qual é a vantagem de se reduzir a variação no processo e ajustar, portanto, os limites do controle 
de processo em um número maior de desvios padrão da média? 


A quantia anual média que as famílias norte-americanas gastam com o transporte diário é US$ 6.312 
(Money, agosto de 2001). Suponha que a quantia média tenha uma distribuição normal. 


a. Suponha que você saiba que 4% das famílias norte-americanas gastam menos de US$ 1.000 com 
o transporte diário. Qual é o desvio padrão da quantia gasta? 

b. Qual é a probabilidade de uma família gastar entre US$ 4 mil e US$ 6 mil? 

с, Qual é a quantia gasta por 3% das famílias que têm os custos de transporte diário mais elevados? 


A Condé Nast Traveler publica uma Gold List dos melhores hotéis de todos os lugares do mundo. O 
Broadmoor Hotel, em Colorado Springs, possui 700 quartos e está na Gold List de 2004 (Condé Nast 
Traveler, janeiro de 2004). Suponha que a equipe de marketing do Broadmoor preveja uma demanda 
por 670 quartos para o próximo fim de semana, Suponha que a demanda para o próximo fim de sema- 
na tenha uma distribuição normal com um desvio padrão igual a 30. 


a, Qual é a probabilidade de todos os quartos do hotel serem alugados? 

b. Qual é a probabilidade de 50 ou mais quartos não serem alugados? 

c. Você recomendaria que a direção do hotel oferecesse uma promoção para aumentar a procura? 
Quais considerações seriam importantes? 


A Ward Doering Auto Sales está pensando em oferecer um contrato de serviço especial que cubra o 
custo total de qualquer trabalho de reparo necessário nos veículos alugados. Por experiência, o geren- 
te da empresa estima que os custos de reparo anuais estão distribuídos de maneira aproximadamente 
normal, com uma média de US$ 150 e desvio padrão de US$ 25. 
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45. 


46. 


47. 


48. 


49. 


а, Se a empresa oferecer o contrato de servico aos clientes por um custo anual de US$ 200, qual é a 
probabilidade de os custos de servico a qualquer cliente em particular ultrapassarem o prego de 
contrato de US$ 200? 

b. Qual é o lucro esperado da Ward por contrato de serviço? 


Deixar de dormir o suficiente está causando mortes no tránsito? Um estudo realizado sob o patrocí- 
nio da National Highway Traffic Safety Administration descobriu que o número médio de acidentes 
fatais provocados por motoristas sonolentos anualmente era 1.550 (Business Week, 26 de janeiro de 
2004). Suponha que o número anual de acidentes fatais por ano esteja distribuído normalmente, com 
um desvio padrão de 300. 


a. Qual é a probabilidade de haver menos de mil acidentes fatais em um ano? 

b. Qual é a probabilidade de o número de acidentes fatais situar-se entre mil e 2 mil por ano? 

c. Para que um ano se situe entre os 5% máximos com respeito ao número de acidentes fatais, quan- 
tos acidentes desse tipo teriam de ocorrer? 

Considere que as pontuações obtidas nos exames de admissão à universidade estejam normalmente 

distribuídas, sendo a média 450 e o desvio padrão 100. 

a. Qual porcentagem das pessoas que fizeram os exames obtiveram pontuações entre 400 e 500? 

b. Suponha que alguém receba a pontuação 630. Das pessoas que fizeram os exames, qual porcenta- 
gem obteve uma pontuação melhor? Qual porcentagem obteve uma pontuação pior? 

c. Se uma universidade em particular não admitir ninguém com pontuações abaixo de 480, qual por- 
centagem das pessoas que fizeram os exames seriam aceitas nessa universidade? 

De acordo com a Advertising Age, o salário-base médio das mulheres que trabalham como copywri- 

ters* em firmas de publicidade é mais alto que o salário-base médio dos homens. O salário-base 

médio das mulheres é US$ 67 mil e o salário-base médio dos homens é US$ 65 mil (Working Woman, 

julho/agosto de 2000). Considere que os salários estão distribuídos normalmente e que o desvio 

padrão é US$ 7 mil tanto para os homens como para as mulheres. 

a, Qual é a probabilidade de uma mulher receber um salário acima de US$ 75 mil? 

b. Qual é a probabilidade de um homem receber um salário acima de US$ 75 mil? 

c. Qual é a probabilidade de uma mulher receber um salário abaixo de US$ 50 mil? 

d. Quanto uma mulher teria de ganhar para ter um salário mais alto que 99% de suas contrapartes do 
sexo masculino? 


Uma máquina preenche recipientes com determinado produto. Por experiência, sabe-se que o desvio 
padrão dos volumes de preenchimento é 0,6 onças (17,74 ml). Se somente 2% dos recipientes con- 
têm menos de 18 onças (532,32 ml), qual é o volume médio de preenchimento efetuado pela máqui- 
na? Ou seja, qual deve ser o valor de 4? Considere que os volumes de preenchimento apresentam uma 
distribuição normal. 


Considere um exame de múltipla escolha com 50 questões. Cada questão tem quatro respostas pos- 
síveis. Suponha que o estudante que tenha feito seu trabalho de casa e participado de todas as aulas 
tenha 0,75 de probabilidade de responder corretamente a qualquer questão. 


a. Um estudante deve responder corretamente a 43 questões ou mais para obter uma nota A. Qual por- 
centagem dos estudantes que fizeram seus trabalhos de casa e participaram das aulas obterá notas 
A neste exame de múltipla escolha? 

b. O estudante que responder corretamente a um número de 35 a 39 questões receberá uma nota C. 
Qual porcentagem dos estudantes que fizeram seus trabalhos de casa e participaram das aulas obte- 
rá notas C neste exame de múltipla escolha? 

c. Um estudante deve responder corretamente a 30 questões ou mais para ser aprovado no exame. 
Qual porcentagem dos estudantes que fizeram seus trabalhos de casa e participaram das aulas será 
aprovada no exame? 

d. Considere que um estudante não tenha participado das aulas e não tenha feito o trabalho de casa 
exigido pelo curso. Além disso, suponha que o estudante simplesmente “chutou” as respostas a 
cada questão. Qual é a probabilidade de esse estudante responder corretamente a 30 questões ou 
mais e ser aprovado no exame? 


4NT: Copywriter: Redator(a) de texto para anúncios ou matéria promocional. 
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50. 


51. 


52. 


53. 


54. 


Um jogador de blackjack’ em um cassino de Las Vegas soube que a casa oferecerá um quarto gratui- 
to se o jogo se estender a quatro horas com uma aposta média de US$ 50. A estratégia do jogador 
apresenta uma probabilidade de 0,49 de ele ganhar qualquer “mão” do jogo, e o jogador sabe que 60 
“mãos” são jogadas por hora. Suponha que ele jogue durante quatro horas, com apostas de US$ 50 
por mão. 

a. Qual é a expectativa de ganho do jogador? 

b. Qual é a probabilidade de o jogador perder US$ 1.000 ou mais? 

c. Qual é a probabilidade de o jogador ganhar? 

d. Suponha que o jogador inicie com US$ 1.500. Qual é a probabilidade de ele perder todo o dinheiro? 
O tempo em minutos durante o qual um estudante usa um terminal de computador no centro de infor- 
mática de uma grande universidade segue uma distribuição exponencial de probabilidade com uma 
média de 36 minutos. Suponha que um estudante chegue ao terminal exatamente no momento em que 
outro estudante começa a trabalhar nele. 


a. Qual é a probabilidade de o tempo de espera do segundo estudante ser de 15 minutos ou menos? 
b. Qual é a probabilidade de o tempo de espera do segundo estudante se situar entre 15 e 45 minutos? 
c. Qual é a probabilidade de o segundo estudante ter de esperar uma hora ou mais? 

O website da empresa Bed and Breakfast Inns of North America (www.bestinns.net) tem aproxima- 
damente sete visitantes por minuto (Time, setembro de 2001). Suponha que o número de visitas por 
minuto ao site siga uma distribuição de probabilidade de Poisson. 

a. Qual é o tempo médio entre as visitas ao site? 

b. Apresente a função densidade de probabilidade referente ao tempo entre as visitas ao site. 

c. Qual é a probabilidade de ninguém acessar o site no período de 1 minuto? 

d. Qual é a probabilidade de ninguém acessar o site no período de 12 segundos? 


O tempo médio de viagem que os residentes na cidade de Nova York gastam para ir ao trabalho é 36,5 

minutos (Time Almanac, 2001). 

a. Suponha que a distribuição exponencial de probabilidade seja aplicável e apresente a função den- 
sidade de probabilidade correspondente ao tempo de viagem que um nova-iorquino típico gasta 
para ir ao trabalho. 

b. Qual é a probabilidade de um nova-iorquino típico gastar entre 20 e 40 minutos para ir ao trabalho? 

c. Qual é a probabilidade de um nova-iorquino típico gastar mais de 40 minutos para ir ao trabalho? 


O tempo decorrido (em minutos) entre as chamadas telefônicas em um escritório de reclamações de 
seguro frequentemente tem a seguinte distribuição exponencial de probabilidade: 


Hx) = 0,5007050 рага х2 0 


а. Qual é o tempo médio entre as chamadas telefónicas? 

b. Qual é a probabilidade de haver 30 segundos ou menos entre as chamadas telefónicas? 
c. Qual é a probabilidade de haver 1 minuto ou menos entre as chamadas telefónicas? 

d. Qual é a probabilidade de haver 5 minutos ou mais sem chamadas telefónicas? 


Estudo de Caso - Specialty Toys 


A Specialty Toys, Inc., vende uma grande variedade de novos e inovadores brinquedos infantis. А gerén- 
cia percebeu que a temporada que antecede as festas de fim de ano é a melhor época para lançar um novo 
brinquedo no mercado, uma vez que é nesse período que muitas famílias procuram novas idéias de pre- 
sentes para as comemorações de dezembro. Quando a Specialty descobre um novo brinquedo com bom 
potencial de mercado, escolhe uma data em outubro para efetuar a entrada no mercado. 


Para colocar os brinquedos em suas lojas até outubro, a Specialty faz os seus pedidos aos fabricantes 


de uma só vez no mês de junho ou julho de cada ano. A demanda por brinquedos infantis pode ser alta- 
mente volátil. Se um novo brinquedo obtiver grande sucesso, a sensação de escassez no mercado freqüen- 
temente aumenta a demanda a níveis elevados, e grandes lucros podem ser percebidos. Entretanto, novos 


5 NT: Blackjack — O blackjack, ou “vinte-e-um”, é um jogo de azar muito popular nos cassinos de Las Vegas. 
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brinquedos também podem ericalhar, deixando a Specialty entulhada de grandes níveis de estoque que pre- 
cisam ser vendidos a precos reduzidos. A questáo mais importante que a empresa enfrenta é decidir quan- 
tas unidades de um novo brinquedo devem ser adquiridas para satisfazer à demanda de vendas prevista. Se 
comprar muito pouco, perderá vendas; se comprar demais, os lucros seráo reduzidos em razáo dos baixos 
preços realizados nas vendas para limpar o estoque. 

Para a próxima temporada, a Specialty planeja lançar no mercado um novo produto, chamado Weather 
Teddy. Essa variação de ursinho falante é produzida por uma empresa de Taiwan. Quando a criança pres- 
siona a mão do ursinho, ele começa a falar. Um barômetro embutido seleciona uma das cinco respostas 
que dão uma previsão do tempo. As respostas variam de “Parece que o dia está muito bonito! Divirta-se!” 
a “Acho que pode chover hoje. Não se esqueça do seu guarda-chuva!”. Os testes realizados com o produ- 
to mostram que, embora não seja uma previsão meteorológica perfeita, suas previsões do tempo são sur- 
preendentemente boas. Diversos gerentes da Specialty afirmaram que o Teddy faz previsões do tempo tão 
boas quanto muitas das previsões meteorológicas locais apresentadas na televisão. 

À semelhança do que ocorre com outros produtos, a Specialty se defronta com a decisão de quantas uni- 
dades de Weather Teddy encomendar para o próximo período de festas. Membros da equipe administrativa 
sugeriram encomendar quantidades de 15 mil, 18 mil, 24 mil ou 28 mil unidades. A larga margem de lotes 
de compra sugeridos indica uma considerável discordância em relação ao potencial de mercado. A equipe 
de gerência de produto pede-lhe uma análise das probabilidades de quebra de estoque (stock-out) para os 
vários lotes de compra, uma estimativa do lucro potencial, e pede-lhe também para auxiliá-la a elaborar uma 
recomendação de lote de compra. A Specialty.espera vender o Weather Teddy por US$ 24, baseando-se em 
um custo de US$ 16 por unidade. Se houver saldos de estoque depois do período de festas de fim de ano, a 
Specialty venderá todo o estoque restante a US$ 5 por unidade. Depois de revisar o histórico de vendas de 
produtos similares, o planejador sênior de vendas previu uma demanda esperada de 20 mil unidades, com 
0,90 de probabilidade de a demanda se situar entre 10 mil e 30 mil unidades. 


Relatório Administrativo 


Prepare um relatório administrativo que encaminhe as seguintes questões e recomende um lote de compra 
relativo ao produto Weather Teddy. 


1. Use a previsão do planejador de vendas para descrever uma distribuição normal de probabilidade 
que possa ser usada para fazer a aproximação à distribuição da demanda. Faça um esboço da dis- 
tribuição e apresente a média e o desvio-padrão. 

2. Calcule a probabilidade de quebra de estoque para os lotes de compra sugeridos pelos membros da 
equipe administrativa. 

3. Calcule o lucro projetado para os lotes de compra sugeridos pela equipe administrativa consideran- 
do três cenários: o pior caso, no qual as vendas são de 10 mil unidades, o caso mais provável, em 
que as vendas são de 20 mil unidades, e o melhor caso, em que as vendas são de 30 mil unidades. 


4. Um dos gerentes da Specialty achava que o potencial de lucro era tão grande que o lote de compra 
poderia ter 70% de chances de satisfazer a demanda e somente 30% de chances de haver uma que- 
bra de estoques. Qual lote deveria ser encomendado sob essa política, e qual é o lucro projetado sob 
os três cenários de vendas? 


5. Apresente sua própria recomendação de lote de compra e anote as projeções de lucro associadas. 
Forneça um fundamento lógico para sua recomendação. 


Apêndice 6.1 — Distribuições Contínuas de Probabilidade 
com o Minitab 


Vamos demonstrar o procedimento para se calcular probabilidades contínuas com o Minitab reportando- 
nos ao problema da Grear Tire Company, em que a durabilidade dos pneus em termos de milhas foi des- 
crita por uma distribuição normal, com и = 36.500 e o = 5.000. Uma das questões foi: qual é a probabi- 
lidade de a durabilidade dos pneus em milhas ultrapassar 40 mil milhas (64.373 quilômetros)? 

Em relação às distribuições contínuas de probabilidade, o Minitab fornece uma probabilidade cumula- 
tiva; isto é, o Minitab oferece a probabilidade de a variável aleatória assumir um valor menor ou igual a 
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uma constante específica. Quanto à questáo da durabilidade dos pneus da Grear, o Minitab pode ser usado 
para determinar a probabilidade cumulativa de a durabilidade em milhas ser menor ou igual a 40 mil 
milhas (a constante específica, nesse caso, 40 mil). Depois de obtermos a probabilidade cumulativa do 

. Minitab, precisamos subtraí-la de 1 para determinar a probabilidade de a durabilidade do pneu ultrapassar 
40 mil milhas. 

Antes de usar o Minitab para calcular uma probabilidade, precisamos inserir a constante específica em 
uma coluna da planilha. Quanto à questáo da durabilidade dos pneus da Grear, inserimos a constante espe- 
cífica 40 mil na coluna C1 da planilha do Minitab. As etapas para usar o Minitab para calcular a probabi- 
lidade cumulativa da variável aleatória normal, considerando um valor menor ou igual a 40 mil, são apre- 
sentadas a seguir: 


Etapa 1. Selecione o menu Calc 
Etapa2. Escolha Probability Distributions 
Etapa3. Escolha a opção Normal 
Etapa 4. Quando a caixa de diálogo Distribuição Normal aparecer: 
Selecione Cumulative probability 
Digite 36.500 na caixa Mean 
Digite 5.000 na caixa Standard deviation 
Digite СІ na caixa Input column (a coluna que contém 40.000) 
Dê um clique em OK 


Depois que o usuário dá um clique em OK, o Minitab imprime a probabilidade cumulativa de a variá- 
vel aleatória normal assumir um valor menor ou igual a 40 mil. O Minitab mostra que essa probabilidade 
é de 0,7580, Como estamos interessados na probabilidade de a durabilidade do pneu ser maior que 40 mil, 
a probabilidade desejada é 1 — 0,7580 = 0,2420. 

Uma segunda questão no problema da Grear Tire Company foi: qual garantia de durabilidade em 
milhas a Grear deve fixar para assegurar que não mais de 10% dos pneus se qualifiquem à garantia? Aqui 
nos é dada uma probabilidade e queremos descobrir o valor correspondente da variável aleatória. O 
Minitab usa uma rotina de cálculo inversa para encontrar o valor da variável aleatória associada a deter- 
minada probabilidade cumulativa. Primeiramente, precisamos introduzir a probabilidade cumulativa em 
uma coluna da planilha do Minitab (digamos, C1). 

Nesse caso, a probabilidade cumulativa desejada é 0,10. Depois, as três primeiras etapas de procedi- 
mento do Minitab são idênticas às que já foram relatadas. Na etapa 4, selecionamos Inverse cumulative 
probability em vez de Cumulative probability e concluímos as partes restantes da etapa. O Minitab exi- 
birá, então, a garantia de durabilidade de 30.092 milhas (48.428 km). 

O Minitab é capaz de calcular probabilidades para outras distribuições contínuas de probabilidade, até 
mesmo a distribuição exponencial de probabilidade. Para calcular as probabilidades exponenciais, siga o 
procedimento apresentado anteriormente referente à distribuição normal de probabilidade e escolha a 
opção Exponential na etapa 3. A etapa 4 é idêntica ao que foi descrito, com exceção de que não é neces- 
sário introduzir um desvio padrão. Os dados de saída (output) das probabilidades cumulativas e probabi- 
lidades cumulativas inversas são idênticos aos da distribuição normal de probabilidade. 


Apéndice 6.2 — Distribuições Contínuas de Probabilidade 
com o Excel 


O Excel tem a capacidade de calcular probabilidades de diversas distribuições contínuas de probabilidade, 
até mesmo as distribuições normal e exponencial. Neste apêndice, descreveremos como o Excel pode ser 
usado para calcular probabilidades de qualquer distribuição normal de probabilidade. Os procedimentos 
referentes às distribuições exponenciais e outras distribuições contínuas são idênticos aos que descreve- 
mos com relação à distribuição normal de probabilidade. 

Retornemos ao problema da Grear Tire Company, em que a durabilidade dos pneus em termos de 
milhas foi descrita como uma distribuição normal de probabilidade, com и = 36.500 e o = 5.000. 
Suponha que estejamos interessados na probabilidade de a durabilidade do pneu ultrapassar 40 mil milhas 
(64.373 km). 


235 


236 


Estatística Aplicada à Administracáo e Economia 


A função DIST.NORM do Excel fornece as probabilidades cumulativas de uma distribuição normal. A 
forma geral da função DIST. NORM (x, и, с, cumulativo). Quanto ao quarto argumento, VERDADEIRO 
é especificado se uma probabilidade cumulativa for desejada. Desse modo, para calcular a probabilidade 
cumulativa de a durabilidade do pneu ser menor ou igual a 40 mil milhas (64.373 km), introduziríamos a 
seguinte fórmula em qualquer célula de uma planilha do Excel: 


=DIST.NORM(40000;36500;5000;VERDADEIRO) 


Neste ponto, aparecerá 0,7580 na célula em que a fórmula foi inserida, indicando que a probabilidade 
de a durabilidade do pneu ser menor ou igual a 40 mil milhas é 0,7580. Portanto, a probabilidade de a dura- 
bilidade do pneu ultrapassar 40 mil milhas é 1 — 0,7580 = 0,2420. 

A função DIST.NORM do Excel usa um cálculo inverso para encontrar o valor de x correspondente a 
determinada probabilidade cumulativa. Por exemplo, suponha que queiramos descobrir qual é o número 
de milhas que a Grear deve oferecer como garantia a fim de que não mais de 10% dos pneus se qualifi- 
quem à garantia. Digitaríamos a seguinte fórmula em qualquer célula de uma planilha do Excel 


=INV.NORM(0,1;35600;5000) 


Neste ponto, aparecerá 30.092 na célula em que a fórmula foi inserida, indicando que a probabilidade de 
um pneu durar 30.092 milhas (48.428 km) é inferior a 0,10. * 

A função do Excel para calcular probabilidades exponenciais é DISTEXPON. Ela é fácil de usar. Mas 
se alguém precisar de ajuda para especificar os valores apropriados para os argumentos, a função Inserir 
do Excel pode ser usada (veja o Apêndice 2.2). 


CAPÍTULO 7 


/Amostragens e 
Distribuições /amostrais 


ESTATÍSTICA NA PRÁTICA 


MEADWESTVACO CORPORATION* 
Stamford, Connecticut 


A MeadWestvaco Corporation, uma empresa que ocupa a liderança na produção de embalagens, papéis 
especiais, coated paper!, produtos de consumo, de escritório e de química fina, emprega mais de 30 mil pes- 
soas. Opera internacionalmente em 33 países e atende a clientes localizados em aproximadamente 100 paí- 
ses. A MeadWestvaco detém uma posição de liderança na produção de papéis, com uma capacidade anual 
de 1,8 milhão de toneladas. Os produtos da empresa incluem papel para livros didáticos, papel brilhante 
(glossy) para revistas, sistemas de embalagem de bebidas e produtos de escritório. A equipe de consultoria 
interna da MeadWestvaco recorre a amostragens para produzir uma variedade de informações que possibili- 
tam à empresa obter significativos benefícios de produtividade e permanecer competitiva. 

Por exemplo, a MeadWestvaco mantém grandes propriedades florestais cujas árvores são a matéria-prima 
para muitos dos produtos da empresa. Os gerentes necessitam de informações confiáveis e precisas a respei- 
to das áreas de cultivo de madeira e florestas para avaliar a capacidade da empresa para suprir suas necessi- 
dades futuras de matéria-prima. Qual é o atual volume das florestas? Qual foi o crescimento das florestas no 
passado? Qual é a projeção de crescimento futuro das florestas? Com as respostas a essas importantes ques- 


* Os autores agradecem ao Dr. Edward P. Winkofsky por fornecer esta “Estatística na Prática”. 
1 NT: Coated paper — Papel cuja superfície foi tratada para receber impressões em escala de cinza ou colorida. 
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tões, os gerentes da MeadWestvaco podem desenvolver planos para o futuro, incluindo o planejamento do 
plantio a longo prazo e a programação de corte das árvores. 

Como a MeadWestvaco obtém as informações de que necessita a respeito de suas vastas propriedades flo- 
restais? Dados coletados de pequenos lotes amostrais de todas as florestas constituem a base para a empresa 
tomar conhecimento do número total de árvores que ela possui. Para identificar os lotes amostrais, as áreas flo- 
restais são primeiramente divididas em três seções baseadas na localização e nos tipos de árvore. Usando mapas 
e números aleatórios, os analistas da MeadWestvaco identificam amostras aleatórias de lotes de 1/5 а 1/7 de 
acre? em cada seção da floresta, Os engenheiros florestais da MeadWestvaco coletam dados desses lotes amos- 
trais para conhecer a população de árvores da floresta. 

Os engenheiros florestais de toda a organização participam do processo de coleta de dados em campo. 
Periodicamente, equipes de duas pessoas reúnem as informações obtidas sobre cada árvore de cada um dos 
lotes amostrais. Os dados amostrais são inseridos no sistema computadorizado denominado Continuous Forest 
Inventory (CFI) — inventário contínuo de florestas — da empresa. Os relatórios do sistema CFI incluem uma série 
de sumários de distribuição de frequência que contêm estatísticas sobre os tipos de árvore, volume atual, taxas 
de crescimento florestal passadas e projeções do crescimento e volume florestal futuros. A amostragem e os 
sumários estatísticos dos dados amostrais correspondentes produzem os relatórios que são fundamentais à 
administração eficaz das florestas e áreas de cultivo de madeira da MeadWestvaco. 

Neste capítulo, você aprenderá a amostragem aleatória simples e o processo de escolha da amostra. Além 
disso, aprenderá como são usados certos métodos estatísticos, como a média amostral e a proporção da amos- 
tra, para estimar a média e a proporção da população. Também é introduzido o importante conceito de distri- 
buição amostral. 


No Capítulo 1, definimos o que é uma população e uma amostra. As definições são reapresentadas a 
seguir: 


1. Uma população é o conjunto de todos os elementos de interesse em um estudo. 
2. Uma amostra é um subconjunto da população. 


Características numéricas de uma população, por exemplo, a média e o desvio padrão, são chamadas 
parâmetros. Um dos propósitos fundamentais da inferência estatística é desenvolver estimativas e testar 
hipóteses a respeito dos parâmetros populacionais usando a informação contida em uma amostra. 

Vamos iniciar referindo-nos a duas situações nas quais amostras produzem estimativas dos parâmetros 
populacionais: 


1, Um fabricante de pneus desenvolveu um novo tipo de pneu, projetado para proporcionar um 
aumento da durabilidade em termos de milhas em relação à atual linha de pneus da empresa. Para 
estimar o número médio de milhas proporcionadas pelos novos pneus, o fabricante selecionou uma 
amostra de 120 pneus novos para teste. Os resultados do teste produziram uma média amostral de 
36.500 milhas (58.741 km). Portanto, uma estimativa do número médio de milhas para a popula- 
ção de novos pneus era de 36.500 milhas. 


2. Os membros de um partido político consideravam a possibilidade de apoiar determinado candidato nas 
eleições ao Senado dos Estados Unidos, e os líderes do partido queriam uma estimativa da proporção 
de eleitores inscritos favoráveis ao candidato. O tempo e o custo associados ao trabalho de contatar 
cada indivíduo da população de eleitores inscritos eram proibitivos. Portanto, foi selecionada uma 
amostra de 400 eleitores inscritos, dos quais 160 indicaram preferência pelo candidato. A estimativa da 
proporção da população de eleitores inscritos favoráveis ao candidato foi de 160/400 = 0,40. 


Esses dois exemplos que acabamos de apresentar ilustram algumas das razões pelas quais se usam amos- 
tras. Observe que, no exemplo da durabilidade dos pneus, a coleta de dados sobre a vida útil do pneu envol- 
ve gastar cada pneu testado. Evidentemente, não é viável testar cada pneu da população; uma amostra é a 
única maneira realística de se obter os dados desejados de durabilidade dos pneus. No exemplo envolven- 
do as eleições, contatar cada eleitor inscrito da população é teoricamente possível, mas o tempo e o custo 
desse trabalho são por demais proibitivos; desse modo, é preferível uma amostra dos eleitores inscritos. 


2NT: lacre = 40,47 ares. 
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É importante entender que os resultados da amostra fornecem somente estimativas dos valores das 
características populacionais. Мао esperamos que a média amostral de 36.500 milhas (58.741 km) seja 
exatamente igual ao námero médio de milhas para todos os pneus da populacáo nem esperamos que exa- 
tamente 0,40, ou 40%, da população de eleitores inscritos seja favorável ao candidato. A razão é simples- 
mente esta: a amostra contém somente uma parcela da população. Com métodos de amostragem apropria- 
dos, os resultados da amostra produzirão “boas” estimativas dos parâmetros populacionais. Mas, qual é o 
nosso nível de confiança de que os resultados da amostra serão bons? Felizmente, há procedimentos esta- 
tísticos disponíveis para responder a essa questão. 

Neste capítulo, mostramos como a amostragem aleatória simples pode ser usada para selecionar uma 
amostra de uma população. Depois, mostraremos como os dados obtidos de uma amostra aleatória sim- 
ples podem ser usados para se calcular estimativas da média de uma população, o desvio padrão de uma 
população e a proporção de uma população. Além disso, introduziremos o importante conceito de distri- 
buição amostral, Conforme mostraremos, o conhecimento da distribuição amostral apropriada é que nos 
possibilita fazer afirmações sobre quão próximas estão as estimativas amostrais dos parâmetros populacio- 
nais correspondentes. A última seção discute algumas alternativas à amostragem aleatória simples que fre- 
quentemente são empregadas na prática. 


7.1 PROBLEMA DE AMOSTRAGEM DA ELECTRONICS 
ASSOCIATES 


O diretor de pessoal da Electronics Associates, Inc. (EAT) foi incumbido da tarefa de desenvolver um per- 
fil dos 2.500 gerentes da empresa. As características a serem identificadas incluem o salário médio anual 
dos gerentes e a proporção de gerentes que concluíram o programa de treinamento gerencial da empresa. 

Usando os 2.500 gerentes como a população para esse estudo, podemos encontrar o salário anual e o 
status do programa de treinamento de cada indivíduo consultando os registros de pessoal da empresa. O 
arquivo de dados que contém essa informação referente a todos os 2.500 gerentes da população encontra- 
se no site www.thomsonlearning.com.br/estatapl.htm. 

Usando o conjunto de dados da EAI e as fórmulas apresentadas no Capítulo 3, calculamos a média 
populacional e o desvio padrão correspondentes aos dados de salário anual. 


Média populacional: и = US$ 51.800 
Desvio padrão da população: о = US$ 4.000 


Os dados referentes ao status no programa de treinamento mostram que 1.500 dos 2.500 gerentes con- 
cluíram o programa de treinamento. Se admitirmos que p denota a proporção da população que concluiu o 
programa de treinamento, verificamos que p = 1.500/2.500 = 0,60. O salário médio anual da população 
(u = US$ 51.800), o desvio padrão do salário anual da população (o = US$ 4 mil) e a proporção da popu- 
lação que concluiu o programa de treinamento (р = 0,60) são parámetros da população de gerentes da EAI. 

Agora, suponha que as informações necessárias sobre todos os gerentes do EAI não estivessem pron- 
tamente disponíveis no banco de dados da empresa. A questão que consideramos agora é como o diretor 
de pessoal da empresa pode obter estimativas dos parâmetros populacionais usando uma amostra de geren- 
tes em vez de todos os 2.500 gerentes da população. Suponha que seja usada uma amostra de 30 gerentes. 
Evidentemente, o tempo e o custo para desenvolver um perfil seriam substancialmente menores em rela- 
ção aos 30 gerentes do que para a população inteira. Se o diretor de pessoal pudesse ter a certeza de que 
a amostra de 30 gerentes forneceria as informações adequadas a respeito da população de 2.500 gerentes, 
trabalhar com uma amostra seria preferível a trabalhar com a população inteira. Vamos explorar a possi- 
bilidade de usar uma amostra para o estudo realizado pela EAI, considerando primeiramente como pode- 
mos identificar uma amostra de 30 gerentes. 


7.2 AMOSTRAGEM ALEATÓRIA SIMPLES 


Diversos métodos podem ser usados para selecionar uma amostra de uma população; um dos mais comuns 
é a amostragem aleatória simples. A definição de amostra aleatória simples e o processo de seleção de 
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Uma média 
amostral produz 
uma estimativa da 
média da 
população, e uma 
proporção 
amostral fornece 
uma estimativa da 
proporção da 
população. 
Quando se trata 
de estimativas 
como estas, alguns 
erros de estimação 
podem ser 
esperados. Este 
capítulo apresenta 
a base para que se 
possa determinar 
qual poderia ser a 
extensão desses 
erros. 


DA INTERNET 
EAI 


Freqüentemente, 
o custo para 
coletar as 
informações de 
uma amostra é 
substancialmente 
menor que o custo 
para coletar 
informações de 
uma população, 
especialmente 
quando é 
necessário realizar 
entrevistas pessoais 
para coletar essas 
informações. 
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Números 
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aleatórios em suas 
planilhas. 


Os números 
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em grupos de 
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uma amostra aleatória simples dependem de a população ser finita ou infinita. Como o problema de amos- 
tragem da EAI envolve uma população finita de 2.500 gerentes, consideraremos primeiramente a amostra- 
gem de uma população finita. 


Amostragem de Populações Finitas 


Uma amostra aleatória simples de tamanho п de uma população finita de tamanho N é definida da seguin- 
te maneira: 


AMOSTRA ALEATÓRIA SIMPLES (POPULAÇÃO FINITA) 


Uma amostra aleatória simples de tamanho л de uma população finita de tamanho N é uma amostra 
selecionada de tal maneira que cada amostra possível de tamanho n tenha a mesma probabilidade de 
ser escolhida. 


Um procedimento para selecionar uma amostra aleatória simples de uma população finita é escolher 
os elementos da amostra, um a cada vez, de tal maneira que, a cada etapa, cada um dos elementos restan- 
tes da população tenha a mesma probabilidade de ser escolhido. Amostrar n elementos dessa maneira satis- 
fará a definição de amostra aleatória simples de uma população finita. 

Para selecionar uma amostra aleatória simples da população finita de gerentes da EAI, primeiramente 
atribuímos um número a cada gerente. Por exemplo, podemos atribuir os números de 1 a 2.500 aos gerentes, 
na ordem em que seus nomes aparecem no arquivo de pessoal da EAI. Em seguida, consultamos a lista de 
números aleatórios da Tabela 7.1. Usando a primeira linha da tabela, cada dígito, 6, 3, 2, ..., é um dígito alea- 
tório que tem igual chance de ocorrer. Uma vez que o maior número da lista da população de gerentes da 
EAI, 2.500, tem quatro dígitos, selecionaremos números aleatórios na tabela, em conjuntos ou grupos de qua- 
tro dígitos. Não obstante podermos iniciar a seleção de números aleatórios em qualquer lugar da tabela e nos 
deslocarmos sistematicamente na direção que preferirmos, usaremos a primeira linha da Tabela 7.1 e nos des- 
locaremos da esquerda para a direita. Os sete primeiros números aleatórios de quatro dígitos são 


6.327 1.599 8.671 7.445 1.102 1.514 1.807 


Como os números da tabela são aleatórios, esses números de quatro dígitos são igualmente prováveis. 


Tabela 7.1 Números aleatórios 


63271 59986 71744 51102 15141 80714 58683 93108 13554 79945 
88547 09896 95436 79115 08303 0104 20030 63754 08459 28364 


55957 57243 83865 09911 19761 66535 40102 26646 60147 15702 
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782 
55363 07449 34835 15290 76616 6719 12777 21861 68689 03263 


69393 92785 49902 58447 42048 30378 87618 26933 40640 16281 
13186 29431. 88190 04588 38733 81290 89541 70290 4113 08243 
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493 
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935 
81628 36100 39254 56835 37636 0242 98063 8964! 64953 99337 


84649 48968 75215 75498 49539 74240 03466 49292 36401 45525 


63291 11618 12613 75055 43915 26488 4116 64531 56827 30825 
70502 53225 03655 05915 37140 5705 48393 91322 25653 06543 
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191 
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927 


41990 70538 77191 25860 55204 73417 83920 69468 74972 38712 
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807 
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453 
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828 
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332 


32001 96293 37203 64516 51530 37069 40261 61374. 05815 06714 
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457 
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669 
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355 
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289 
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Agora, podemos usar esses números aleatórios de quatro dígitos para dar a cada gerente da população 
uma chance igual de ser incluído na amostra aleatória. O primeiro número, 6.327, é maior que 2.500. Ele 
não corresponde a um dos gerentes enumerados da população e, portanto, é descartado. O segundo nüme- 
ro, 1.599, está entre 1 e 2.500. Assim, o primeiro gerente selecionado para a amostra aleatória é o número 
1.599 na lista dos gerentes da EAI. Continuando o processo, ignoramos os números 8.671 e 7.445 antes de 
identificar os gerente de número 1.102, 1.514 e 1.807 para serem incluídos na amostra aleatória. Esse pro- 
cesso continua até que a amostra aleatória simples de 30 gerentes da EAI tenha sido obtida. 

Ao implementarmos esse processo de seleção da amostra aleatória simples, é possível que um núme- 
ro aleatório usado anteriormente possa aparecer novamente na tabela antes de a amostra de 30 gerentes da 
EAI ser escolhida. Como não queremos selecionar um mesmo gerente mais de uma vez, quaisquer núme- 
ros aleatórios utilizados anteriormente são ignorados, pois o gerente correspondente já foi incluído na 
amostra. O ato de selecionarmos uma amostra dessa maneira é chamado amostragem sem substituição. 
Se selecionarmos uma amostra de tal maneira que sejam aceitáveis números aleatórios escolhidos anterior- 
mente e gerentes específicos possam ser incluídos na amostra duas ou mais vezes, estaremos realizando 
uma amostragem com substituição. A amostragem com substituição é uma maneira válida de se identi- 
ficar uma amostra aleatória simples. Entretanto, a amostragem sem substituição é o procedimento de 
amostragem usado com maior fregiiência. Quando nos referirmos à amostragem aleatória simples, o pres- 
suposto é de que se trata de uma amostragem sem substituição. 


Amostragem de Populações Infinitas 


Em algumas situações, a população ou é infinita ou tão grande que, para fins práticos, precisa ser tratada 
como infinita. Por exemplo, suponha que um restaurante de fast-food queira obter um perfil dos seus clien- 
tes selecionando uma amostra aleatória simples de clientes e pedindo a cada um para preencher um breve 
questionário. 

Nesse tipo de situação, o processo contínuo de visitas de clientes ao restaurante pode ser visto como 
proveniente de uma população contínua. A definição de amostra aleatória simples de uma população infi- 
nita é a seguinte: 


AMOSTRA ALEATÓRIA SIMPLES (POPULAÇÃO INFINITA) 
Uma amostra aleatória simples de uma população infinita é uma amostra selecionada de tal maneira 
que as condições seguintes sejam satisfeitas: 

1. Cada elemento selecionado vem dessa população. 

2. Cada elemento é selecionado de maneira independente. 


Quanto ao exemplo de selecionar uma amostra aleatória simples de clientes de um restaurante de fast- 
food, a primeira condição é satisfeita por qualquer cliente que entre no restaurante. A segunda condição 
é satisfeita selecionando-se clientes independentemente. O propósito da segunda condição é impedir que 
haja um viés na seleção. Ocorreria um viés de seleção se, por exemplo, cinco clientes consecutivos sele- 
cionados fossem, todos, amigos entre si que chegassem juntos ao restaurante. Poderíamos esperar que 
esses clientes apresentassem perfis semelhantes. O viés de seleção pode ser evitado assegurando-se de 
que a escolha de um cliente em particular não influa na escolha de outro cliente qualquer. Em outras pala- 
vras, os clientes devem ser escolhidos de maneira independente. 

O McDonald's, líder no ramo de restaurantes de fast-food, implementou um procedimento de amostra- 
gem aleatória simples exatamente para esse tipo de situação. O procedimento de amostragem se baseou no 
fato de que alguns clientes apresentavam cupons de desconto. Quando queria que um cliente apresentasse 
um cupom de descontos, o cliente era servido e, em seguida, solicitado a preencher um questionário de 
perfil do cliente. Uma vez que os clientes que chegavam apresentavam cupons de desconto aleatoriamen- 
te e de maneira independente, esse esquema de amostragem assegurava que os clientes eram selecionados 
independentemente. Desse modo, as duas condições necessárias a uma amostra aleatória simples de uma 
população infinita eram satisfeitas. 

Populações infinitas frequentemente estão associadas a processos ininterruptos que operam continua- 
mente ao longo do tempo. Por exemplo, peças que são manufaturadas em uma linha de produção, as tran- 
sações financeiras que ocorrem em um banco, as chamadas telefônicas a um centro de suporte técnico, e 
clientes que entram em uma loja, todos, podem ser vistos como integrantes de uma população infinita. 
Nesses casos, um procedimento criativo de amostragem garantirá que não ocorra nenhum viés de seleção 
e que os elementos da amostra são selecionados de maneira independente. 
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Na prática, uma 
população a ser 
estudada 
geralmente é 
considerada infinita 
quando envolve 
um processo 
contínuo que 
impossibilita a 
listagem ou a 
contagem de cada 
elemento da 


população. 


Quanto às 
populações 
infinitas, um 
procedimento de 
seleção de 
amostras deve ser 
idealizado 
especialmente para 
selecionar os itens 
de maneira 
independente e, 
desse modo, evitar 
um viés de seleção 
que possa atribuir 
maiores 
probabilidades de 
escolha a certos 
tipos de elemento. 
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NOTAS E COMENTÁRIOS 


1. O nümero de diferentes amostras aleatórias simples de tamanho n que podem ser selecionadas de uma 
população infinita de tamanho N é 


N! 
ANN — n)! 


Nessa fórmula, N! e n! são os cálculos fatoriais discutidos no Capítulo 4. Em relação ao problema da 
БАЈ, сот N = 2.500 e n = 30, essa expressão pode ser usada para mostrar que aproximadamente 
2,74 X 10€ diferentes amostras aleatórias simples de 30 gerentes da EAI podem ser obtidas. 

2. Softwares de computador podem ser usados para selecionar uma amostra aleatória. Nos apéndices do 
capítulo, mostramos como o Minitab e o Excel podem ser utilizados para selecionar uma amostra alea- 
tória simples de uma população infinita. 


Exercícios 


Métodos 


1. Considere uma população finita com cinco elementos rotulados A, B, C, D e E. Dez possíveis amos- 
tras aleatórias simples de tamanho 2 podem ser selecionadas. 


a. Relacione as dez amostras, iniciando com AB, AC e assim por diante. 

b. Usando a amostragem aleatória simples, qual é a probabilidade de cada amostra de tamanho 2 ser 
selecionada? 

c. Considere que o número aleatório 1 corresponde a A, o número aleatório 2 corresponde a B e assim 
por diante. Relacione a amostra aleatória simples de tamanho 2 que será selecionada usando-se os 
dígitos aleatórios 8057532. 

2. Considere que uma população finita tenha 350 elementos.Usando os três últimos dígitos de cada um 
dos seguintes números aleatórios de cinco dígitos apresentados a seguir (601, 022, 448, ...), determi- 
ne os quatro primeiros elementos que serão selecionados para a amostra aleatória simples. 


98.601 73.022 83.448 02.147 34.229 27.553 84.147 93.289 14.209 


Aplicacoes 


3. А revista Fortune publica dados sobre vendas, lucros, ativos, lucro líquido dos acionistas, valor de 
mercado e rendimentos por acáo das 500 maiores corporagóes industriais norte-americanas (Fortune 
` 500, 2003). Suponha que você queira selecionar uma amostra aleatória simples de dez corporações 
da lista da Fortune 500, Use os três últimos dígitos da coluna 9 da Tabela 7.1, iniciando com 554. 
Leia a coluna de cima para baixo e identifique os números das dez empresas que seriam seleciona- 

das, 


4. Os dez títulos financeiros mais ativos nas Bolsas de Nova York (Nyse), Nasdag e American (Amex) 
com capitalizações de mercado acima de US$ 500 milhões são os seguintes (The Wall Street Journal, 
21 de fevereiro de 2003): 


Applied Materials Nasdaq 100 

Cisco Systems Nextel 

Intel Oracle 

Lucent Technologies SPDR 

Microsoft Sun Microsystems 


a. Suponha que uma amostra aleatória de cinco títulos financeiros sejam selecionados para um estu- 
do detalhado do comportamento dos negócios. Iniciando com o primeiro dígito aleatório da Tabela 
7.1 e lendo a coluna de cima para baixo, use os números aleatórios de um único dígito para sele- 
cionar uma amostra aleatória simples de cinco títulos financeiros a serem usados nesse estudo. 

b. De acordo com a informação de Notas e Comentários, quantas amostras aleatórias simples de 
tamanho 5 podem ser selecionadas da lista de dez títulos financeiros? 
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10. 


Um grêmio estudantil está interessado em avaliar a proporção de estudantes que são favoráveis à polí- 
tica obrigatória de graduação “pass-fail” para cursos eletivos. Uma lista de nomes e endereços dos 
645 estudantes matriculados no atual semestre está disponível na secretaria da escola. Usando núme- 
ros aleatórios de três dígitos da linha 10 da Tabela 7.1 e deslocando-se da esquerda para a direita, 
identifique os dez primeiros estudantes que seriam selecionados usando-se a amostragem aleatória 
simples. Os números aleatórios de três dígitos iniciam-se com 816, 283 e 610. 


O County and City Data Book, publicado pelo Census Bureau (Departamento do Censo), relaciona 
informações sobre 3.139 municípios de todo o território norte-americano. Considere que um estudo 
em nível nacional faça a coleta de dados de 30 municípios escolhidos aleatoriamente. Use números 
aleatórios de quatro dígitos da última coluna da Tabela 7.1 para identificar os números corresponden- 
tes aos cinco primeiros municípios selecionados para a amostra. Ignore os primeiros dígitos e inicie 
com os números aleatórios de quatro dígitos 9.945, 8.364, 5.702 etc. 

Suponha que queiramos identificar uma amostra aleatória simples de 12 dos 372 médicos de deter- 
minada cidade. Os nomes dos médicos estão disponíveis em uma organização médica local. Use a 
oitava coluna de números aleatórios de cinco dígitos da Tabela 7.1 para identificar os 12 médicos da 
amostra. Ignore os dois primeiros dígitos aleatórios de cada agrupamento de cinco dígitos dos núme- 
ros aleatórios. Esse processo inicia-se com o número aleatório 108 e prossegue coluna abaixo na lista 
de números aleatórios. 

A relação a seguir apresenta os 25 melhores times de futebol americano da NCAA da temporada de 
2002 (NCAA News, 4 de janeiro de 2003). Use a nona coluna dos números aleatórios da Tabela 7.1, 
que se inicia com 13.554, para selecionar uma amostra aleatória simples de seis times de futebol. 
Comece com o time 13 e use os dois primeiros dígitos de cada linha da nona coluna para realizar o 
seu processo de seleção. Quais são os seis times de futebol americano selecionados para a amostra 
aleatória simples? 


1. Ohio State 14. Virginia Tech 
2. Miami 15. Penn State 
3. Georgia 16. Aubum 
4. Southern California 17. Notre Dame 
5. Oklahoma 18. Pittsburgh 
6. Kansas State 19. Marshall 
7. Texas 20. West Virginia 
8. Iowa 21. Colorado 
9. Michigan 22. TCU 
10. Washington State 23. Florida State 
11. North Carolina State 24. Florida 
12. Boise State 25. Virginia 
13. Maryland 


O The Wall Street Journal publica o valor patrimonial líquido, o retorno percentual anual até o pre- 

sente e o retorno percentual de três anos de 555 fundos mútuos (The Wall Street Journal, 25 de abril 

de 2003). Suponha que uma amostra aleatória simples de 12 dos 555 fundos mütuos seja seleciona- 

da para um estudo de acompanhamento do tamanho e desempenho dos fundos mútuos. Use a quarta 

coluna de números aleatórios da Tabela 7.1, que se inicia em 51.102, para selecionar a amostra alea- 

tória simples de 12 fundos mútuos. Inicie com o fundo mútuo 102 e use os três últimos dígitos de cada 

linha da quarta coluna em seu processo de seleção. Quais são os números dos 12 fundos mútuos da 

amostra aleatória simples? 

Indique se as populações a seguir devem ser consideradas finitas ou infinitas: 

a. Todos os eleitores inscritos do estado da Califórnia. 

b. Todos os aparelhos de televisão que poderiam ser produzidos pelo parque industrial da TV-M 
Company, em Allentown, Pensilvânia. 

c. Todos os pedidos que poderiam ser processados por uma empresa de encomenda postal. 

d. Todas as chamadas telefônicas de emergência que poderiam ser feitas a uma delegacia de polícia local. 

e. Todos os componentes que a Fibercon, Inc., produziu no segundo tumo de trabalho no dia 17 de maio. 


3 NT: Pass-fail: Educ. — Designa um sistema de graduação (notas) no qual um “pass” (aprovado) ou um “fail” (reprovado) é reg- 
istrado, em vez de uma nota numérica ou letra (Estados Unidos). 
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7.3 ESTIMAÇÃO POR PONTO 


Agora que descrevemos como selecionar uma amostra aleatória simples, retornemos ao problema da EAI. 
Uma amostra aleatória simples de 30 gerentes, contendo os dados correspondentes aos salários anuais e à 
participação no programa de treinamento gerencial, é apresentada na Tabela 7.2. A notação ху, x; etc. é 
usada para denotar o salário anual do primeiro gerente da amostra, o salário anual do segundo gerente da 
amostra e assim por diante. A participação no programa de treinamento gerencial é indicada por um Sim 
na coluna correspondente. 

Para estimar o valor do parâmetro de uma população, calculamos uma característica correspondente da 
amostra, denominada estatística amostral. Por exemplo, para estimar a média da população и e o desvio 
padrão da população o referentes aos salários anuais dos gerentes da EAI, usamos os dados da Tabela 7.2 
para calcular as estatísticas amostrais correspondentes: a média amostral X e o desvio padrão da amostras. 


Tabela 7.2 Os salários anuais e a situação no programa de treinamento gerencial referentes a uma amostra 


aleatória simples de 30 gerentes da EAI $ 
Salário Anual Programa de Salário Anual Programa de 
(US$) Treinamento Gerencial (US$) Treinamento Gerencial 
ху = 49.094,30 Sim х = 51.766,00 Sim 
x = 53.263,90 Sim хуу = 52.541,30 Não 
x3 = 49.643,50 Sim хув = 44.980,00 Sim ' 
x4 = 49.894,90 Sim x19 = 51.932,60 Sim 
x; = 47,621.60 Não x29 = 52.973,00 Sim 
х = 55.924,00 Sim х = 45.120,90 Sim 
ху = 49.092,30 Sim хуу = 51.753,00 Sim 
xa = 51.404,40 Sim хуз = 54.391,80 Não 
хә = 50.957,70 Sim x24 = 50.164,20 Мао 
xio = 55.109,70 Sim x25 = 52.973,60 Não 
ху = 45.922,60 Sim хә = 50.241,30 Não 
хуу = 57.268,40 Não хуу = 52.793,90 Não 
хуз = 55.688,80 Sim хув = 50.979,40 Sim 
худ = 51.564,70 Não X9 = 55.860,90 Sim 
xis = 56.188,20 Мао хо = 57.309,10 Мао 


Usando as fórmulas da média amostral e do desvio padráo de uma amostra apresentados no Capítulo 3, a 
média amostral é 


Ex, (1554420 


E 30 7 $51.814 


х= 


е o desvio padráo da amostra é 


EVI 
ы сы = 2xX».. у 09080 Р 
& =s mem E $ 3.348 


Para estimar p, que é a proporção de gerentes da população que concluíram o programa de treinamen- 
to gerencial, usamos a proporção amostral correspondente p. Digamos que x denote o número de gerentes 
da amostra que concluíram o programa de treinamento gerencial. Os dados da Tabela 7.2 mostram que x 
= 19. Desse modo, com um tamanho de amostra n = 30, a proporção da amostra é 


Ao fazer os cálculos anteriores, executamos o procedimento estatístico denominado estimação por 
ponto. Referimo-nos à média amostral X como o estimador por ponto da média da população m, ao des- 
vio padrão da amostra Ж como o estimador por ponto do desvio padrão o da população, e à proporção da 

Lo 
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amostra р como o estimador por ponto da proporção p da população. O valor numérico de x, s ou p 
chama-se estimacáo por ponto. Desse modo, em relacáo à amostra aleatória simples de 30 gerentes da 
EAI apresentada na Tabela 7.2, US$ 51.814 é a estimação por ponto de и, US$ 3.348 é a estimação por 
ponto de с e 0,63 é a estimação por ponto de p. A Tabela 7.3 resume os resultados amostrais e compara 
as estimações por ponto com os valores reais dos parámetros populacionais. ` 


Tabela 7.3 Resumo das estimacóes por ponto obtidas de uma amostra aleatória 
simples de 30 gerentes da EAI 


Parámetro Populacional Valor do Parámetro Estimador por Ponto Estimativa por Ponto 
ш = Salário médio anual US$ 51.800 X = Salário médio anual US$ 51.814 
da populacáo da amostra 
с = Desvio padrão do salário US$ 4.000 s = Desvio padrão do US$ 3.348 
anual da população salário anual da amostra 
b = Proporção da população 0,60 Б = Proporção da 0,63 
que concluiu o programa populacáo que concluiu o 
de treinamento gerencial programa de treinamento 
gerencial 


Como está claro na Tabela 7.3, a estimação por ponto difere bastante dos parâmetros populacionais 
correspondentes. Essa diferença deve ser esperada porque é usada uma amostra, não um censo da popula- 
ção inteira, para desenvolver as estimações por ponto. No próximo capítulo, mostraremos como construir 
uma estimação de intervalo para obtermos informações sobre quão próxima uma estimação por ponto está 
do parâmetro populacional. 


Exercícios 


Métodos 


11. Os dados a seguir são de uma amostra aleatória simples: 


5 8 10 7 10 14 


a. Qual é a estimação por ponto da média da população? 
b. Qual é a estimação por ponto do desvio padrão da população? 
N 
12/ Uma pergunta de uma pesquisa realizada com uma amostra de 150 indivíduos produziu 75 respostas 
“Sim”, 55 respostas “Não” e 20 "Sem Opinião”. 
a. Qual é a estimação por ponto da proporção da população que respondeu Sim? 
b. Qual é a estimação por ponto da proporção da população que respondeu Não? 


Aplicações 

13. Uma amostra aleatória simples dos dados de cinco meses de vendas forneceu a seguinte informação: 
Mês 1 2 3 4 5 
Unidades Vendidas 94 100 85 94 92 


a. Desenvolva uma estimação por ponto do número médio de unidades da população vendidas por més. 
b. Desenvolva a estimação por ponto do desvio padrão da população. 

14, A Business Week publicou informações sobre 283 fundos mútuos de ações (Business Week, 26 de 
janeiro de 2004). Uma amostra de 40 desses fundos encontra-se no conjunto de dados (data set) 
MutualFund. Use o conjunto de dados para responder às seguintes questões: 


a. Desenvolva uma estimação por ponto da proporção dos fundos de ações da Business Week que são 
load funds + 


ANT: Load funds — Fundos mútuos com encargos (economia). 
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b. Desenvolva uma estimação por ponto da proporção de fundos que são classificados como investi- 
mentos de alto risco. 
c. Desenvolva uma estimação por ponto da proporção de fundos que têm uma avaliação abaixo da média. 


15. A Appliance Magazine publicou estimações da expectativa de durabilidade de aparelhos domésticos 
(USA Today, 5 de setembro de 2000). Uma amostra aleatória simples de dez aparelhos de videocas- 
sete (VCRs) apresenta os seguintes tempos de vida útil em termos de anos: 


65 80 62 74 70 84 95 46 50 74 
a. Desenvolva uma estimação por ponto da expectativa de durabilidade média da população de VCRs. 
b. Desenvolva uma estimação por ponto do desvio padrão da expectativa de durabilidade média da 
população de VCRs. 


16. Uma amostra de 50 empresas do grupo Fortune 500 (Fortune, 14 de abril de 2003) mostrou que cinco 
estavam sediadas em Nova York, seis na Califórnia, duas em Minnesota e uma em Wiconsin. 


a. Desenvolva uma estimativa da proporção de empresas do grupo Fortune 500 sediadas em Nova 
York. 

b. Desenvolva uma estimativa do número de empresas do grupo Fortune 500 sediadas em Minnesota. 

c. Desenvolva uma estimativa da proporção de empresas do grupo Fortune 500 que não estão sedia- 
das nesses quatro estados. 


17. Uma pesquisa de opinião realizada pela Louis Harris ouviu 1.008 adultos para saber o que as pessoas 
pensavam sobre a economia (Business Week, 7 de agosto de 2000). As respostas foram as seguintes: 


595 adultos А economia está crescendo. 
332 adultos А economia permanece mais ou menos estagnada. 
81 adultos А economia está se retraindo. 


Desenvolva uma estimação por ponto dos seguintes parâmetros populacionais. 


a. À proporção de todos os adultos que acham que a economia está crescendo. 
b. A proporção de todos os adultos que acham que a economia está mais ou menos estagnada. 
c. À proporção de todos os adultos que acham que a economia está se retraindo. 


7.4 INTRODUÇÃO ÀS DISTRIBUIÇÕES AMOSTRAIS 


Na seção anterior, dissemos que a média da amostra х é o estimador por ponto da média populacional и, 
e que a proporção da amostra p é o estimador por ponto da proporção da população p. Em relação à amos- 
tra aleatória simples de 30 gerentes da EAI, apresentada na Tabela 7.2, a estimação por ponto de 4 é x = 
US$ 51.814,00 e a estimação por ponto de p é р 0,63. Suponha que selecionemos outra amostra aleatória 
simples de 30 gerentes да EAI e obtenhamos as seguintes estimações por ponto: 


Média da amostraz = US$ 52.670 
Proporção da amostrap = 0,70 


Observe que foram obtidos diferentes valores de x e de p. De fato, não se pode esperar que uma segunda 
amostra aleatória simples de 30 gerentes da EAI produza as mesmas estimações por ponto que a primeira 
amostra. 

Suponha agora que repetimos o processo de selecionar uma amostra aleatória simples de 30 gerentes 
da EAI diversas vezes, calculando a cada vez os valores de x e de p. A Tabela 7.4 contém uma parte dos 
resultados obtidos para as 500 amostras aleatórias simples, e a Tabela 7.5 fornece as distribuições de fre- 
qüéncia e de freqüiéncia relativa dos 500 valores de X. A Figura 7.1 apresenta o histograma de freqüéncia 
relativa dos valores de x. 

No Capítulo 5, definimos uma variável aleatória como uma descrição numérica do resultado de um 
experimento. Se considerarmos que o processo de escolher uma amostra aleatória simples é um experi- 
mento, a média amostral X é uma descrição numérica do resultado do experimento. Desse modo, a média 
amostral X é uma variável aleatória. Conseqüentemente, à semelhança do que ocorre com qualquer variá- 
vel aleatória, X tem um valor médio ou esperado, um desvio padrão e uma distribuição de probabilidade, 
Uma vez que os diversos valores possíveis de X resultam de diferentes amostras aleatórias simples, a dis- 
tribuição da probabilidade de x é chamada distribuição amostral de x. Conhecer essa distribuição amos- 
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tral e suas propriedades nos possibilitará fazer afirmações a respeito de quão próxima a média da amostra 
X está da média da população z. 


Tabela 7.4 Valores de x e p em 500 amostras aleatórias simples de 30 gerentes da EAI 


Número da Média da Amostra Proporção da Amostra 
Amostra O (Ф) 
| 51.814 0,63 
2 52.670 0,70 
3 51.780 0,67 
4 51.588 0,53 
500 51.752 0,50 


Retornemos à Figura 7.1. Precisaríamos enumerar cada amostra possível de 30 gerentes e calcular cada 
média amostral para determinar de maneira completa a distribuição amostral de x. Entretanto, o histogra- 
ma de 500 valores de x fornece uma aproximação dessa distribuição amostral. Pela aproximação, obser- 
vamos que a distribuição tem a forma de sino. Notamos que a maior concentração dos valores de X e a 
média dos 500 valores de X estão próximas da média populacional и = US$ 51.800. Descreveremos as 
propriedades das distribuições amostrais de X mais detalhadamente na próxima seção. 

Os 500 valores da proporção da amostra p são sintetizados pelo histograma de freqüéncia relativa da 
Figura 7.2. Assim como ocorre com x, р é uma variável aleatória. Se toda amostra possível de tamanho 30 
fosse selecionada da população, e se um valor de p fosse calculado para cada amostra, a distribuição de 
probabilidade resultante seria a distribuição amostral de p. O histograma de freqüéncia relativa dos 500 
valores da amostra apresentado na Figura 7.2 nos dá uma idéia geral da aparência da distribuição amostral 
de p. 

Na prática, selecionamos somente uma amostra aleatória simples da população. Repetimos o processo 
de amostragem 500 vezes nesta seção simplesmente para ilustrar que muitas amostras diferentes são pos- 
síveis e que as diferentes amostras geram uma grande variedade de valores para as estatísticas da amostra 
X e p. A distribuição de probabilidade de qualquer estatística amostral em particular é denominada distri- 
buição amostral. Na Seção 7.5, apontaremos as características da distribuição amostral de X. Na Seção 7.6, 
mostraremos as características da distribuição amostral de p. 


Tabela 7.5 Distribuição da frequência de x em 500 amostras aleatórias simples de 30 gerentes da EAI 


Salário Anual Médio ($) Frequência Freqüéncia Relativa 
49.500,00—49.999,99 2 0,004 
50.000,00—50.499,99 l6 0,032 
50.500,00—50.999,99 52 0.104 
51.000,00—51.499,99 101 0,202 
51.500,00—51.999,99 133 0,266 
52.000,00—52.499,99 110 0,220 
52.500,00—52.999,99 54 0,108 
53.000,00—53.499,99 26 0,052 
53.500,00—53.999,99 6 0,012 


Totais 500 1.000 
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Figura 7.1 Histograma da frequência relativa dos valores de X em 500 amostras aleatórias simples com 
tamanho 30 cada uma 


Frequência Relativa 


50.000 51.000 52.000 53.000 54.000 


Valores de x 


Figura 7.2 Histograma da frequência relativa dos valores de р em 500 amostras aleatórias simples com 
tamanho 30 cada uma 


Freqüéncia Relativa 
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7.5 DISTRIBUIÇÃO AMOSTRAL DE x 


Na seção anterior, dissemos que a média da amostra x é uma variável aleatória e que sua distribuição de 
probabilidade é chamada distribuição amostral de X. 


DISTRIBUIÇÃO AMOSTRAL DE X 


A distribuição amostral de X é a distribuição de probabilidade de todos os valores possíveis da média 
amostral x. 


Esta seção descreve as propriedades da distribuição amostral de x. Exatamente como ocorre com outras 
distribuições de probabilidade que estudamos, a distribuição amostral de X tem um valor esperado (ou 
média), um desvio padrão e um formato, ou forma, característico. Vamos iniciar considerando a média de 
todos os valores possíveis de X, à qual nos referimos como valor esperado de x. 


Valor Esperado de x 


No problema de amostragem da EAI, vimos que diferentes amostras aleatórias simples resultam em uma 
série de valores correspondentes à média amostral X. Como são possíveis muitos valores diferentes da 
variável aleatória X, frequentemente o que nos interessa é a média de todos os possíveis valores de X que 
podem ser gerados pelas várias amostras aleatórias simples. A média da variável aleatória X é o valor espe- 
rado de X. Admitamos que E(X) representa o valor esperado de X e и representa a média da população da 
qual estamos selecionando uma amostra aleatória simples. Podemos demonstrar que, quando se trata de 
uma amostragem aleatória simples, E(X) e 4 são iguais. 


VALOR ESPERADO DE X E( v 
ЕФ) =p C.) 


em que 
E(X) = o valor esperado de x 
и = a média da população 


Esse resultado mostra que, quando se trata de uma amostragem aleatória simples, o valor esperado (ou 
média) da distribuição amostral de x é igual à média da população. Na Seção 7.1, vimos que o salário anual 
médio da população de gerentes da EAI é и = US$ 51.800. Desse modo, de acordo com a Equação 7.1, а 
média de todas as médias amostrais possíveis no estudo da EAI é também US$ 51.800. 

Quando o valor esperado de um estimador por ponto for igual ao parâmetro populacional, dizemos que 
о estimador por ponto é sem viés. Assim, a Equação 7.1 mostra que X é um estimador sem viés da média 
populacional и. 


Desvio Padrão de x 


Vamos definir o desvio padrão da distribuição amostral de x. Usaremos a seguinte notação: 


0; = o desvio padrão de x 

с = о desvio padrão da população 
n = o tamanho da amostra 

N = o tamanho da população 


Pode-se demonstrar que, quando se trata de amostragem aleatória simples, o desvio padrão de x depende de a 
população ser finita ou infinita. As duas expressões para o desvio padrão de x são as seguintes: 


DESVIO PADRÃO DE x 
População Finita População Infinita 


- x) = 2 72 
9:7 Хут (ун КЕК 02 
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О valor esperado 
de X é igual à 
média da 
população da qual 
a amostra é 
selecionada. 
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O Problema 21 
demonstra o 
seguinte: quando 
nN € 0,05, о 
fator de correção 
para populações 
finitas tem pouco 
efeito sobre o 
valor de оў, 


O termo erro 
padrão é usado 
quando queremos 
nos referir ao 
desvio padrão de 
um estimador por 
ponto. 
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Ao comparar as duas fórmulas apresentadas na Equação 7.2, vemos que o fator V(N — n)/(N — 1) é 
necessário para o caso де a população ser finita, mas não para o caso da populacáo infinita. Esse fator 
comümente é chamado fator de correção para populações finitas. Em muitas situações práticas de 
amostragem, descobrimos que a população, não obstante ser finita, é “grande”, ao passo que o tamanho da 
amostra é relativamente “pequeno”. Nesses casos, o fator de correção para populações finitas 
V(N — n)/(N — 1) está próximo de 1. Conseqüentemente, a diferença entre os valores do desvio padrão 
de X para os casos de populações finitas e infinitas torna-se desprezível. Então, 0; = o/Vn torna-se uma 
boa aproximação ao desvio padrão de x, embora a população seja finita. Essa observação leva à seguinte 
diretriz geral, ou método prático, de se calcular o desvio padrão de x. 


USE A SEGUINTE EXPRESSÃO PARA CALCULAR O DESVIO PADRÃO DE x 
[^] 
o= (7.3) 


sempre que 
1. A população for infinita; ou 
2. A população for finita e o tamanho da amostra for menor ou igual a 5% do tamanho da popu- 
lação; ou seja, n/N = 0,05. 


Nos casos em que n/N > 0,05, a versão para populações finitas da Equação 7.2 deve ser usada no cálculo 
de оу. A menos que seja indicado o contrário, ao longo de todo o livro presumiremos que o tamanho da 
população seja “grande”, n/N = 0,05, e a Equação 7.3 pode ser usada para calcular о. 

Para calcular о;, precisamos conhecer o, que é o desvio padrão da população. Para enfatizarmos ainda 
mais a diferença entre о; e g, referimo-nos ao desvio padrão de X, оу, como o erro padrão da média. Em 
geral, o termo erro padrão refere-se ao desvio padrão de um estimador por ponto. Posteriormente, vere- 
mos que o valor do erro padrão da média é útil para determinarmos quão distante a média amostral pode 
estar da média da população. Retornemos agora ao exemplo da EAI e calculemos o erro padrão da média 
associada às amostras aleatórias simples de 30 gerentes da ЕАІ. 

Na Seção 7.1, vimos que o desvio padrão dos salários anuais da população de 2.500 gerentes da EAI 
é о = 4.000. Nesse caso, a população é finita, com N = 2.500. Entretanto, com um tamanho de amostra 
igual a 30, temos n/N = 30/2.500 = 0,012. Uma vez que o tamanho da amostra é menor que 5% do tama- 
nho da população, podemos ignorar o fator de correção para populações finitas e usar a Equação (7.3) para 
calcular o erro padrão. 


q-L-*00 7303 
* vn 30 f 


Forma da Distribuição Amostral de X 


Os resultados anteriores referentes ao valor esperado e ao desvio padrão da distribuição amostral de x são 
aplicáveis a qualquer população. A etapa final do processo de identificação das características da distribui- 
ção amostral de X é determinar o formato, ou forma, da distribuição amostral. Consideraremos dois casos: 
(1) a população tem uma distribuição normal; e (2) a população não tem uma distribuição normal. 


A população tem uma distribuição normal Em muitas situações, é razoável supormos que a população 
da qual selecionamos uma amostra aleatória simples em uma distribuição normal, ou aproximadamente 
normal. Quando a população tem uma distribuição normal, a distribuição amostral de X está normalmente 
distribuída para qualquer tamanho de amostra. 


A população não tem uma distribuição normal Quando a população da qual selecionamos uma amos- 
tra aleatória simples não tem uma distribuição normal, o teorema do limite central é útil para identificar- 
mos a forma da distribuição amostral de x. Uma definição do teorema do limite central, quando ele se apli- 
ca à distribuição amostral de X, é a seguinte: 
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TEOREMA DO LIMITE CENTRAL 

Ao selecionar amostras aleatórias simples de tamanho и de uma população, podemos aproximar a dis- 
tribuição amostral da média da amostra X por meio de uma distribuição normal à medida que o tama- 
nho da amostra se torna maior. 


A Figura 7.3 mostra como o teorema do limite central funciona em relação a três populações diferen- 
tes: cada coluna refere-se a uma das populações. O painel superior da figura mostra que nenhuma das 
populações está normalmente distribuída. A população I segue uma distribuição uniforme. A população II, 
muitas vezes, é chamada distribuição “orelha-de-coelho”. Ela é simétrica, mas os valores mais prováveis 
situam-se nas extremidades (caudas). A população III tem uma forma similar à da distribuição exponen- 
cial; ela tem uma inflexão à direita, 

Os três painéis da parte inferior da Figura 7.3 mostram a forma da distribuição amostral corresponden- 
te a amostras de tamanho n = 2, n = 5 e n = 30. Quando a amostra tem tamanho 2, notamos que a forma 
de cada distribuição amostral é diferente da forma da distribuição populacional correspondente. Em rela- 
ção a amostras de tamanho 5, notamos que a forma da distribuição amostral referente às populações I e II 
começa a demonstrar certa similaridade com a forma da distribuição normal. Não obstante a forma da dis- 
tribuição amostral da população III começar a demonstrar similaridade com a forma de uma distribuição 
normal, ainda há certa inflexão à direita, Finalmente, para amostras de tamanho 30, as formas de cada uma 
das três distribuições amostrais são aproximadamente normais. 


Figura 7.3 Ilustração do teorema do limite central para três populações 


População | População 11 População III 
Distribuição 
da população 
Valores de x Valores de x Valores de x 
Distribuição 
amostral 
дех 
(n=2) гы 
Valores de x | - Valores de X Valores de x 
Distribuição 
amostral 
dex 
(n=5) N 
Valores de x Valores de x Valores de X 
Distribuição 
amostral 
дех 
(п = 30) 
- LL 


Valores de X Valores de X Valores de x 
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Do ponto de vista profissional, freqüentemente queremos saber quáo grande o tamanho da amostra pre- 
cisa ser antes de o teorema do limite central aplicar-se e podermos presumir que a forma da distribuição 
amostral seja aproximadamente normal. Pesquisadores estatísticos investigaram essa questão estudando a 
distribuição amostral de X para uma grande variedade de populações e de tamanhos de amostra. A prática 
geral da estatística é supor que, para a maioria das aplicações, a distribuição amostral de x pode ser apro- 
ximada por meio de uma distribuição normal sempre que a amostra tiver tamanho 30 ou mais. Nos casos 
em que a população tem uma inflexão elevada ou existam pontos fora da curva, podem ser necessárias 
amostras de tamanho 50, Finalmente, se a população for discreta, o tamanho de amostra necessário a uma 
distribuição normal dependerá muitas vezes da proporção da população. Falaremos mais sobre esse assun- 
to quando discutirmos a distribuição amostral de p na Seção 7.6. 


Distribuição Amostral de x para o Problema da EAI 


Retornemos ao problema da EAI, na parte em que mostramos anteriormente que E(X) = US$ 51.800 e 
0; = 730,3. Neste ponto, não temos nenhuma informação sobre a distribuição da população; ela pode estar 
distribuída normalmente ou não. Se a população tem uma distribuição normal, a distribuição amostral de 
X está normalmente distribuída. Se a população não tem uma distribuição normal, a amostra aleatória sim- 
ples de 30 gerentes e o teorema do limite central nos possibilitam concluir que a distribuição amostral de 
X pode ser aproximada por meio de uma distribuição normal. Em qualquer dos casos, sentimo-nos à von- 
tade em prosseguir com a conclusão de que a distribuição amostral de X pode ser descrita pela distribui- 
ção normal mostrada na Figura 7.4. 


Valor Prático da Distribuição Amostral de x 


Sempre que uma amostra aleatória simples é selecionada e o valor da média da amostra X é usado para 
estimar o valor da média da população и, não podemos esperar que a média da amostra seja exatamente 
igual à média da população. A razão prática pela qual estamos interessados na distribuição amostral de X 
é que ela pode ser usada para fornecer informações probabilísticas a respeito da diferença entre a média 
da amostra e a média da população. Para demonstrar esse uso, retornemos ao problema da EAI, 

Suponha que o diretor de pessoal acredite que a média da amostra venha a ser uma estimativa aceitá- 
vel da média da população se essa média da amostra estiver dentro de US$ 500 da média da população. 
Entretanto, não é possível garantir que a média da amostra estará dentro de US$ 500 da média da popula- 
ção. De fato, a Tabela 7.5 e a Figura 7,1 mostram que algumas das 500 médias da amostra diferiam em 
mais de US$ 2 mil da média da população. Então, precisamos pensar no pedido do diretor de pessoal 
em termos probabilísticos. Ou seja, o diretor de pessoal preocupa-se com a seguinte questão: qual é a pro- 
babilidade de a média da amostra, calculada usando-se uma amostra aleatória simples de 30 gerentes da 
EAI, estar dentro de US$ 500 da média da população? 

Já que identificamos as propriedades da distribuição amostral de х (veja a Figura 7.4), usaremos essa 
distribuição para responder à questão de probabilidade. Consulte a distribuição amostral de x apresentada 
novamente na Figura 7.5. Com uma média populacional de US$ 51.800, o diretor de pessoal quer saber 
qual é a probabilidade de x estar entre US$ 51.300 e US$ 52.300. Essa probabilidade é dada pela área com 
sombreamento mais escuro da distribuição amostral apresentada na Figura 7.5. Uma vez que a distribui- 
ção amostral está normalmente distribuída, com a média de 51.800 e erro padrão da média igual a 730,3, 
podemos usar a tabela de áreas da distribuição normal padrão. Para X = 51.300, temos: 


_ 51.300 - 51.800 


= — 0,68 
730,3 
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Figura 7.4 Distribuição amostral de x do salário médio anual de uma amostra aleatória 
simples de 30 gerentes da EAI 


Distribuição amostral 
dex 


Distribuição Amostral 
dex 


Área = 02517 — p - Área = 02517 


51.300 51.800 52.300 


Consultando a tabela de distribuição normal padrão, verificamos que a área entre z = 0 e z = —0,68 А distribuição 
é 0,2517. Cálculos similares para x = 52.300 mostram que a área entre z = 0 ez = +0,68 corresponde a amostral de x 
0,2517. Desse modo, a probabilidade de o valor da média da amostra estar entre 51.300 e 52.300 é 0,2517 pode ser usada 
* 0,2517 = 0,5034. nes 

Os cálculos anteriores revelam que uma amostra aleatória simples de 30 gerentes da EAI tem uma pro- — probabifisticas а 
babilidade de 0,5034 de produzir uma média amostral х que esteja dentro de US$ 500 da média da popu- — respeito de quão 
lação. Assim, há a probabilidade de 1 — 0,5034 = 0,4966 de a diferença entre x e и = US$ 51.800 ser próxima a média 
maior que US$ 500. Em outras palavras, uma amostra aleatória simples de 30 gerentes da EAI tem apro- amostral x está 
ximadamente 50-50 de chances de produzir uma média amostral dentro dos US$ 500 admissíveis. Talvez da теда | 
um tamanho de amostra maior deva ser considerado. Vamos explorar essa possibilidade considerando a populacional p. 
relação entre o tamanho da amostra e a distribuição amostral de x. 


Relação entre o Tamanho da Amostra e a Distribuição Amostral de x 


Suponha que, no problema de amostragem da ЕАТ, selecionemos uma amostra aleatória simples de cem 
gerentes em vez dos 30 considerados a princípio. Intuitivamente, poderia parecer que, em decorrência da 
maior quantidade de dados oferecidos pelo maior tamanho de amostra, a média amostral baseada em 
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^ = 100 nos daria uma estimativa melhor da média populacional que a média amostral baseada em n = 
30. Para ver melhor, consideremos a relação entre o tamanho da amostra e a distribuição amostral de X. 

Primeiramente, observe que E(X) = и, independentemente do tamanho da amostra. Assim, a média de 
todos os valores possíveis de x é igual à média da população и, independentemente do tamanho da amos- 
tra n. Note, entretanto, que o erro padrão da média, о; = o /Vn, está relacionado com a raiz quadrada do 
tamanho da amostra. Sempre que o tamanho da amostra for aumentado, o erro padrão da média o; decres- 
ce. Com n = 30, o erro padrão da média relativo ao problema da EAI é 730,3. Porém, com o aumento do 
tamanho da amostra para n = 100, o erro padrão da média decresce para 


с 4.000 


o= = 400 
vn V100 


As distribuições amostrais de X, com n = 30 e n = 100, são mostradas na Figura 7.6. Desde que a dis- 
tribuição amostral com и = 100 tenha um erro padrão menor, os valores de X têm menos variação e ten- 
dem a aproximar-se mais da média da população que os valores de X com n = 30. 


Figura 7.6 Comparação das distribuições amostrais de X para amostras aleatórias simples de n = 30 
en = 100 gerentes da EAI 


Comn = 100, 


oz = 400 BN 


Com n = 30, 
ох = 7303 


ET 


51.800 


Podemos usar a distribuição amostral X para o caso em que n = 100 para comparar a probabilidade de 
uma amostra aleatória simples de 100 gerentes da EAI produzir uma média amostral que esteja dentro dos 
US$ 500 da média da população. Uma vez que a distribuição amostral é normal, com uma média igual 
a 51.800 e erro padrão igual a 400, podemos usar a tabela de distribuição normal padrão para encontrar a 
área ou a probabilidade. Para x = 51.300 (Figura 7.7), temos 


51.300 — 51.800 


- = -1,25 
z 400 
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Figura 7.7 A probabilidade de uma média amostral estar dentro dos US$ 500 da média da população 
quando se usa uma amostra aleatória simples de 100 gerentes да EAI 


Distribuição amostral 
de x 


comn = 100 ox = 400 


Área = 0,3944 


51.300 52.300 


Consultando a tabela de distribuição normal padrão de probabilidade, verificamos que a área entre 
z=0ez=-1,25 é 0,3944. Com um cálculo similar para x = 52.300, vernos que a probabilidade de o 
valor da média da amostra estar entre 51.300 e 52.300 é 0,3944 + 0,3944 = 0,7888. Desse modo, ao 
aumentarmos o tamanho da amostra de 30 para 100 gerentes da EAI, elevamos também a probabilidade 
de obter uma média amostral dentro dos US$ 500 da média da populacáo, de 0,5034 para 0,7888. 

O ponto importante nesta discussáo é que, à medida que se aumenta o tamanho da amostra, o erro 
padráo da média diminui. Conseqüentemente, quanto maior o tamanho da amostra, maior a probabilidade 
de a média da amostra estar dentro de uma distáncia específica da média da populagáo. 


NOTAS E COMENTÁRIOS 


1. Ao apresentar a distribuição amostral de x relativa ao problema da EAI, recorremos ao fato de que a 
média populacional и = 51.800 e o desvio padrão da população o = 4.000 eram conhecidos. 
Entretanto, geralmente os valores da média populacional и e o desvio padrão da população о, que são 
necessários para determinar a distribuição amostral de X, são desconhecidos. No Capítulo 8, mostrare- 
mos como a média da amostra X e o desvio padrão da amostra s são usados quando и e o são desco- 
nhecidos. 


2. A demonstração teórica do teorema do limite central requer observações independentes na amostra. 
Essa condição é satisfeita para populações infinitas e finitas em que a amostragem é feita com substi- 
tuição. Embora o teorema do limite central não lide diretamente com amostragens sem substituição de 
populações finitas, a prática geral da estatística aplica as conclusões do teorema do limite central a essa 
situação quando o tamanho da população é grande. 


Exercícios 


Métodos 


18. A média de uma população é 200 e seu desvio padrão é 50. Uma amostra aleatória simples de tama- 
nho 100 será tomada e a média amostral x será usada para estimar a média da população. 
a. Qual é o valor esperado de x? 
b. Qual é o desvio padráo de x? 
c. Apresente a distribuição amostral de X. 
d. O que a distribuição amostral de х indica? 
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19. 


20. 


21. 


A média de uma população é 200 e seu desvio padrão é 50. Suponha que uma amostra aleatória sim- 
ples de tamanho 100 seja selecionada e que X seja usado para estimar B. 


а. Qual é a probabilidade de a média da amostra estar dentro de +5 da média da população? 

b. Qual é a probabilidade de a média da amostra estar dentro de +10 da média da população? 
Suponha que o desvio padrão da população seja o = 25. Calcule o erro padrão da média о;, para 
tamanhos de amostra iguais a 50, 100, 150 e 200. O que se pode afirmar sobre o tamanho do erro 
padrão da média quando o tamanho da amostra for aumentado? 


Suponha que uma amostra aleatória simples de tamanho 50 seja selecionada de uma população com 
o = 10. Encontre o valor do erro padrão da média em cada um dos seguintes casos (use o fator de 
correção para populações finitas, se for o caso). 

a. O tamanho da população é infinito. 

b. O tamanho da população é N = 50.000. 

c. O tamanho da população é N = 5.000, 

d. O tamanho da população é N = 500. 


Aplicações 


22. 


23. 


24, 


25. 


26. 


Consulte o problema de amostragem da EAI. Suponha que seja usada uma amostra aleatória simples 
de 60 gerentes. 


a. Trace um esboço da distribuição amostral de X quando são usadas amostras aleatórias simples de 
tamanhos 60. 

b. O que acontece com a distribuição amostral de X se forem usadas amostras aleatórias simples de 
tamanho 120? | 

c. Qual afirmação genérica se pode fazer a respeito daquilo que acontece à distribuição amostral de X 
quando o tamanho da amostra for aumentado? Essa generalização parece lógica? Explique. 


No problema de amostragem da EAI (veja a Figura 7.5), mostramos que para n = 30 havia a proba- 
bilidade de 0,5034 de obtermos uma miédia amostral dentro de + US$ 500 da média da população. 


a. Qual é a probabilidade de X estar dentro de US$ 500 da média da população, se for usado um tama- 
nho de amostra igual a 60? 
b. Responda ao item (a) considerando uma amostra com tamanho 120. 


O custo médio do ensino nas universidades públicas norte-americanas é US$ 4.260 por ano (St. 
Petersburg Times, 11 de dezembro de 2002). Use esse valor como média populacional e considere que 
o desvio padrão da população é o = US$ 900. Suponha que uma amostra aleatória de 50 universida- 
des públicas seja selecionada. 


a. Apresente a distribuição amostral de x em que x é a média amostral do custo de ensino nas 50 uni- 
versidades. 

b. Qual é a probabilidade de a amostra aleatória simples produzir uma média amostral que se situe 
dentro dos US$ 250 da média populacional? 

c. Qual é a probabilidade de a amostra aleatória simples produzir uma média amostral que se situe 
dentro dos US$ 100 da média populacional? 


O College Board American College Testing Program divulgou que a média populacional das pontua- 

ções nos exames SAT é u = 1.020 (The World Almanac 2003). Considere que o desvio padrão da 

população seja o = 100. 

a. Qual é a probabilidade de uma amostra aleatória de 75 estudantes produzir uma média amostral de 
pontuações SAT dentro de 10 da média populacional? 

b. Qual é a probabilidade de uma amostra aleatória de 75 estudantes produzir uma média amostral de 
pontuação SAT dentro de 20 da média populacional? 

O salário anual inicial médio de graduados com major? em marketing é 05$ 34 mil (Time, 8 de maio 

de 2000). Suponha que o salário anual inicial médio da população de graduados com major em mar- 

keting seja и = 34.000 e o desvio padrão seja o = 2.000. ` 


5 NT: Major: Educ. — Designa a área de estudo universitário na qual o estudante se especializa (Estados Unidos). N 
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27. 


28. 


29. 


30. 


a. Qual é a probabilidade de uma amostra aleatória simples de graduados com major em marketing 
ter uma média amostral dentro de + US$ 250 da média populacional correspondente a cada um dos 
seguintes tamanhos de amostra: 30, 50, 100, 200 e 400? 

b. Qual é a vantagem de um tamanho maior de amostra quando se tenta estimar a média da população? 


A Business Week realizou uma pesquisa de opinião de graduados dos 30 melhores programas de MBA 
(Business Week, 22 de setembro de 2003). A pesquisa revelou que o salário anual médio de homens 
e mulheres, dez anos após a graduação, eram US$ 168 mil e US$ 117 mil, respectivamente. Suponha 
que o desvio padrão para os graduados seja US$ 40 mil, e para as graduadas seja US$ 25 mil. 


a. Qual é a probabilidade de uma amostra aleatória simples de 40 homens, graduados produzir uma 
média amostral dentro dos US$ 10 mil da média populacional, US$ 168 mil? 

b. Qual é a probabilidade de uma amostra aleatória simples de 40 mulheres, graduadas produzir uma 
média amostral dentro dos US$ 10 mil da média populacional, US$ 117 mil? 

c. Em qual dos dois casos anteriores, item (a) ou item (b), temos maior probabilidade de obter uma 
estimativa amostral dentro dos US$ 10 mil da média populacional? Por quê? 

d. Qual é a probabilidade de uma amostra aleatória simples de cem graduados, homens, produzir uma 
média amostral maior que US$ 4 mil abaixo da média populacional? 


O custo médio anual dos seguros de automóvel é US$ 687 (National Association of Insurance 
Commissioners, janeiro de 2003). Use esse valor como média populacional e suponha que o desvio 
padrão da população seja o = US$ 230. Considere uma amostra de 45 apólices de seguro de automó- 
veis. 


a. Apresente a distribuição amostral de X, em que X é a média amostral do custo anual dos seguros de 
automóvel. 

b. Qual é a probabilidade de a média amostral estar dentro dos US$ 100 da média populacional? 

c. Qual é a probabilidade de a média amostral estar dentro dos US$ 25 da média populacional? 

d. O que você recomendaria se uma seguradora quisesse a média amostral para estimar a média popu- 
lacional dentro de +US$ 25? 


A revista Money divulgou que o preço médio de um galão de gasolina nos Estados Unidos durante o 
primeiro trimestre de 2001 era US$ 1,46 (Money, agosto de 2001). Suponha que o preço divulgado 
pela Money seja a média populacional e que o desvio padrão populacional seja o = US$ 0,15. 


a. Qual é a probabilidade de o preço médio de uma amostra de 30 postos de gasolina estar dentro dos 
US$ 0,03 da média populacional? 

b. Qual é a probabilidade de o preço médio de uma amostra de 50 postos de gasolina estar dentro dos 
US$ 0,03 da média populacional? 

c. Qual é a probabilidade de o preço médio de uma amostra de 100 postos de gasolina estar dentro 
dos US$ 0,03 da média populacional? 

d. Você recomendaria um tamanho de amostra de 30, 50 ou 100 para obter, no mínimo, uma proba- 
bilidade de 0,95 de que a média amostral se situe dentro dos US$ 0,03 da média populacional? 


Para estimar a idade média de uma população de 4 mil empregados, foi selecionada uma amostra 
aleatória simples de 40 empregados. 


a. Você usaria o fator de correção para populações finitas ao calcular o erro padrão da média? 
Explique. 

b. Se o desvio padrão da população é o = 8,2 anos, calcule o erro padrão utilizando o fator de corre- 
ção para populações finitas e sem utilizá-lo. Qual é o fundamento lógico para se ignorar o fator de 
correção para populações finitas sempre que n/N < 0,05? 

c. Qual é a probabilidade de a média amostral de idade dos empregados estar dentro de +2 anos da 
idade média da população? 


7.6 DISTRIBUIÇÃO AMOSTRAL DE p 


A proporção amostral p é o estimador por ponto da proporção p da população. A fórmula para calcular a 
proporção amostral é: 
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em que 


x = o número de elementos contidos na amostra que possuem a característica de interesse. 
n = o tamanho da amostra. 


Conforme observamos na Seção 7.4, a proporção amostral p é uma variável aleatória e sua distribuição de 
probabilidade denomina-se distribuição amostral de р. 


DISTRIBUIÇÃO AMOSTRAL DE p 


A distribuição amostral de p é a distribuição de probabilidade de todos os valores possíveis da propor- 
ção amostral p. 


Para determinar quão próxima a proporção amostral p está da proporção populacional p, precisamos 
entender as propriedades da distribuição amostral de p: o valor esperado de p, o desvio padrão de pe a 
forma, ou formato, da distribuição amostral de p. 


Valor Esperado de p 


O valor esperado de p, que é a média de todos os valores possíveis de p, é igual à proporção populacional 
de p. 


VALOR ESPERADO DE р 
E(P) =p (1.4) 
em que 
Е(р) = o valor esperado de р 
p = a proporção populacional 


Uma vez que E(p) = p, p é um estimador sem viés de p. Lembre-se de que observamos na Seção 7.1 que 
p = 0,60 para a população da EAI, em que p é a proporção da população de gerentes que participaram do 
programa de treinamento gerencial da empresa. Desse modo, o valor esperado de p para o problema de 
amostragem da EAI é 0,60. 


Desvio Padrão de p 


Exatamente como concluímos em relação ao desvio padrão de p, o desvio padrão depende de a população 
ser finita ou infinita, As duas fórmulas para calcular o desvio padrão de P são as seguintes: 


DESVIO PADRÃO DE p 


População Finita População Infinita 


= Non pa-p -paza 
o= N-1 A [^ a (7.5) 


Comparando as duas fórmulas em (7.5), vemos que a única diferença é o uso do fator de correção para 
populações finitas V(N — n)/(N — 1). 

Como ocorreu com a média amostral X, a diferença entre as expressões relativas à população finita e à 
população infinita torna-se desprezível se o tamanho da população for grande em comparação com o tama- 
nho da amostra. Seguimos a mesma regra prática que recomendamos em relação à média amostral. Ou 
seja, se a população for finita, com n/N < 0,05, usaremos оу = Vp(1 — p)/n. Entretanto, se a população 
for finita, com n/N > 0,05, o fator de correção para populações finitas deverá ser usado. Novamente, a 
menos que seja especificamente indicado, ao longo de todo o livro presumiremos que o tamanho da popu- 
lação seja grande em relação ao tamanho da amostra e, desse modo, o fator de correção para populações 
finitas é desnecessário. 


Capítulo 7 — Amostragens e Distribuições Amostrais 


Na Seção 7.5, utilizamos a expressão erro padrão da média para nos referir ao desvio padrão de x. 
Afirmamos que, em geral, o termo erro padráo refere-se ao desvio padráo de um estimador por ponto. 
Dessa forma, quanto às proporções, utilizamos a expressão erro padrão da proporção para nos referir ao 
desvio padrão de p. Retornemos agora ao Exemplo da EAI e calculemos o erro padrão da proporção asso- 
ciada às amostras aleatórias simples de seus 30 gerentes. 

Em relação ao estudo da EAI, sabemos que a proporção da população de gerentes que participaram do 
programa de treinamento gerencial é p = 0,60. Com n/N = 30/2.500 = 0,012, podemos ignorar o fator de 
correção para populações finitas quando calculamos o desvio padrão da proporção. Para a amostra aleató- 
ria simples de 30 gerentes, ор é 


" J£ - p) т 
Р п 30 


0,0894 


Forma da Distribuição Amostral de p 


Agora que conhecemos a média е o desvio padrão da distribuição amostral de p, a etapa final consiste em 
determinarmos o formato, ou forma, da distribuição amostral. A proporção amostral é p= x/n. Para uma 
amostra aleatória simples de uma população grande, o valor de p é uma variável aleatória binomial que 
indica o número de elementos contidos na amostra que possuem a característica de interesse. Uma vez que 
n é uma constante, a probabilidade de x/n é idêntica à probabilidade binomial de x, o que significa que a 
distribuição amostral de р também é uma distribuição discreta de probabilidade e que a probabilidade cor- 
respondente a cada valor de x/n é idêntica à probabilidade binomial de x. 

No Capítulo 6, também mostramos que uma distribuição binomial pode ser aproximada por meio de 
uma distribuição normal sempre que o tamanho da amostra for grande o bastante para satisfazer às duas 
condições seguintes: 


пр 2 5 е т1-р) 2 5 


Considerando que essas duas condições tenham sido satisfeitas, a distribuição de probabilidade de x, que 
é o número de elementos na amostra que possuem a característica de interesse, pode ser aproximada por 
meio de uma distribuição normal. E, desde que n seja uma constante, a distribuição amostral de p = x/n 
também pode ser aproximada por meio de uma distribuição normal. Essa aproximação é definida da 
seguinte maneira: 


A distribuição amostral de p pode ser aproximada por meio de uma distribuição normal sempre que 
np=5enl-p=s5. 


Em aplicações práticas, quando desejamos uma estimativa da proporção de uma população, descobrimos 
que os tamanhos das amostras quase sempre são suficientemente grandes para permitir o uso de uma apro- 
ximação normal à distribuição amostral de p. 

Lembre-se de que, em relação ao problema de amostragem da EAI, sabemos que a proporção da popu- 
lação de gerentes que participaram do programa de treinamento é p = 0,60. Com uma amostra aleatória 
simples de tamanho 30, temos np = 30(0,60) = 18, e n(1 — p) = 30(0,40) = 12. Então, a distribuição 
amostral de p pode ser aproximada pela distribuição normal apresentada na Figura 7.8. 


Valor Prático da Distribuição Amostral de p 


O valor prático da distribuição amostral p é que ela pode ser usada para produzir informações probabilís- 
ticas a respeito da diferença entre a proporção amostral e a proporção populacional. Por exemplo, supo- 
nha que no problema da EAI o diretor de pessoal queira saber qual é a probabilidade de obter um valor de 
p que se situe no intervalo de 0,05 da proporção populacional de gerentes da EAI que participaram do pro- 
grama de treinamento. Ou seja, qual é a probabilidade de obter uma amostra com uma proporção amos- 
tral p que se situe entre 0,55 e 0,65? A área com sombreamento mais escuro na Figura 7.9 representa essa 
probabilidade. Usando o fato de que a distribuição amostral de p pode ser aproximada por uma distribui- 
ção normal com uma média igual a 0,60 e desvio padrão da proporção igual a о; = 0,894, descobrimos 
que a variável aleatória normal padrão correspondente a p = 0,55 tem o valor z = (0,55 — 0,60)/0,0894 = 
— 0,56. Consultando a tabela de distribuição normal padrão, notamos que a área entre z = – 0,56 e z = 0 
é 0,2123. 
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Figura 7.8 Distribuição amostral de р referente à proporção de gerentes da EAI que participaram 
do programa de treinamento gerencial 
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dep 


ор = 0,0894 


Similarmente, para p= 0,65, descobrimos que a área entre = 0 ez = 0,56 é 0,2123. Desse modo, a pro- 
babilidade de selecionar uma amostra que forneça uma proporção amostral p dentro de 0,05 da proporção 


populacional p é 0,2123 + 0,2123 = 0,4246. 


Se pensarmos em aumentar o tamanho da amostra para и = 100, o erro padrão da proporção se torna 


,60(1 — 0,60 
o= PRI og 


Com um tamanho de amostra de 100 gerentes da EAI, a probabilidade de a proporção amostral ter um 
valor dentro de 0,05 da proporção populacional agora pode ser calculada. Uma vez que a distribuição 
amostral é aproximadamente normal, com média de 0,60 e erro padrão igual a 0,49, podemos usar a tabe- 
la de distribuição normal padrão para encontrar a área, ou probabilidade. Para p = 0,55, temos z = (0,55 
— 0,60/0,49 = —1,02. Consultando a tabela de distribuição normali padrão, vemos que a área entre 
z ——1,02ez = 0 é 0,3461. De forma semelhante, para 0,65, a área entrez = 0 e z = 1,02 é 0,3461. Assim, 
se o tamanho da amostra for aumentado de 30 para 100, a probabilidade de a proporção amostral p estar 


dentro de 0,05 da proporção populacional p se elevará para 0,3461 + 0,3461 = 0,6922. 


Figura 7.9 Probabilidade de se obter p entre 0,55 e 0,65 
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Exercícios 


Métodos 


31. 


32. 


33. 


34. 


Uma amostra aleatória simples de tamanho 100 é selecionada de uma população com p = 0,40. 


а. Qual é o valor esperado de p? 

b. Qual é o erro padráo de p? 

c. Apresente a distribuição amostral de p. 

d. O que a distribuição amostral de p indica? 

A proporção de uma população é 0,40. Uma amostra aleatória simples de tamanho 200 será tomada 
e a proporção amostral p será usada para estimar a proporção da população. 

a. Qual é a probabilidade de a proporção amostral estar dentro de +0,03 da proporção populacional? 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,05 da proporção populacional? 
Suponha que a proporção populacional seja 0,55. Calcule o erro padrão da proporção, о„ para os 
tamanhos de amostra 100, 200, 500 e mil. O que se pode dizer sobre o tamanho do erro padrão da 
proporção quando o tamanho da amostra é aumentado? 

A proporção populacional é 0,30. Qual é a probabilidade de a proporção amostral estar dentro de 
+0,04 da proporção populacional correspondente a cada um dos seguintes tamanhos de amostra? 
a.n = 100 

b. n = 200 

c. n = 500 

d. n — 1.000 

e. Qual é a vantagem de um tamanho de amostra maior? 


Aplicacoes 


35. 


36. 


37. 


38. 


O presidente da Doerman Distributors, Inc., acredita que 3096 das encomendas feitas à firma sáo pro- 
venientes de clientes que compram pela primeira vez. Uma amostra aleatória simples de 100 pedidos 
será usada para estimar a proporção de clientes que compram pela primeira vez. 


a. Suponha que o presidente esteja correto e p = 30. Qual é a distribuição amostral de р nesse estudo? 
b. Qual é a probabilidade de a proporção amostral p estar entre 0,20 e 0,40? 
c. Qual é a probabilidade de a proporção amostral estar entre 0,25 e 0,35? 


A Business Week divulgou que 56% das famílias dos Estados Unidos têm acesso à internet (Business 
Week, 21 de maio de 2001). Use a proporção populacional p = 0,56 e suponha que uma amostra de 
300 famílias seja selecionada. 


a. Apresente a distribuição amostral de p, em que p é a proporção amostral de famílias que têm aces- 
so à internet. 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,03 da proporção populacional? 

c. Responda ao item (b) considerando os tamanhos de amostra 600 e mil. 


Pesquisas eleitorais da Time/CNN monitoraram a opinião pública em relação aos candidatos presi- 
denciais durante a campanha eleitoral à Presidência da República de 2000. Uma pesquisa patrocina- 
da pela Time/CNN e realizada pela Yankelovich Partners, Inc., usou uma amostra de 589 eleitores 
(Time, 26 de junho de 2000). Suponha que a proporção populacional correspondente a um candidato 
presidencial seja p = 0,50. Admitamos que р seja a proporção amostral de eleitores provavelmente 
favoráveis ao candidato presidencial. 


a, Apresente a distribuição amostral de p. 

b. Qual é a probabilidade de a pesquisa da Time/CNN produzir uma proporção amostral dentro de 
+0,04 da proporção populacional? 

c. Qual é a probabilidade de a pesquisa da Time/CNN produzir uma proporção amostral dentro de 
+0,03 da proporção populacional? 

d. Qual é a probabilidade de a pesquisa da Time/CNN produzir uma proporção amostral dentro de 
+0,02 da proporção populacional? 

A Roper ASW promoveu uma pesquisa para saber qual era a postura dos norte-americanos adultos 

em relação a dinheiro e felicidade (Money, outubro de 2003). Cinqüenta e seis por cento dos entre- 

vistados disseram que faziam um balanço de seus talões de cheque pelo menos uma vez por mês. 
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a. Suponha que uma amostra de 400 norte-americanos adultos tenha sido tomada. Apresente a distri- 
buição amostral da proporção de adultos que controlam seus talões de cheque pelo menos uma vez 
por mês. 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,02 da proporção populacional? 

c. Qual é a probabilidade de a proporção amostral estar dentro de +0,04 da proporção populacional? 

39. O Democrat and Chronicle divulgou que 25% dos vôos que chegaram ao aeroporto de San Diego 
durante os cinco primeiros meses de 2001 estavam atrasados (Democrat and Chronicle, 23 de julho 

de 2001). Suponha que a proporção populacional seja p = 0,25. 

a. Apresente a distribuição amostral de p, a proporção de vôos atrasados em uma amostra de mil vôos. 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,03 da proporção populacional 
se uma amostra de tamanho mil for selecionada? 

c. Responda ao item (b) considerando uma amostra de 500 vôos. 


40. A Grocery Manufacturers of America divulgou que 76% dos consumidores lêem os ingredientes rela- 
cionados no rótulo dos produtos. Suponha que a proporção populacional seja p = 0,76 e que uma 
amostra de 400 consumidores seja selecionada da população. 

a. Apresente a distribuição amostral da proporção da amostra p, em que p é a proporção dos consu- 
midores amostrados que lêem os ingredientes relacionados no rótulo do produto. 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,03 da proporção populacional? 

c. Responda ao item (b) considerando uma amostra de 750 consumidores. 


41. O Food Marketing Institute indica que 17% das famílias gastam mais de US$ 100,00 por semana em 
produtos de mercearia. Suponha que a proporção populacional seja p = 0,17 e que uma amostra alea- 
tória simples de 800 famílias seja selecionada da população. 


a. Apresente a distribuição amostral de р, que é a proporção amostral de famílias que gastam mais do 
que US$ 100,00 por semana em produtos de mercearia. 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,02 da proporção populacional? 

c. Responda ao item (b) considerando uma amostra de 1.600 famílias. 


7.7 MÉTODOS DE AMOSTRAGEM 


Descrevemos o procedimento de amostragem aleatória simples e discutimos as propriedades das distribui- 
ções amostrais de x e p quando se usa a amostragem aleatória simples. Entretanto, a amostragem aleató- 
ria simples não é o único método de amostragem disponível. Métodos como a amostragem aleatória estra- 
tificada, a amostragem por conglomerados e a amostragem sistemática apresentam vantagens sobre a 
amostragem aleatória simples em algumas situações. Nesta seção, apresentaremos brevemente esses méto- 
dos alternativos de amostragem. 


Amostragem Aleatória Estratificada 


Na amostragem aleatória estratificada, os elementos da população são divididos primeiramente em gru- 
pos denominados estratos, de forma que cada elemento da população pertença a um e somente a um estra- 
to. A base para formação dos estratos, por exemplo, departamento, local, idade, tipo de indústria etc. ficam 
a critério do projetista da amostra. Porém, os melhores resultados são obtidos quando os elementos conti- 
dos em cada estrato são o mais similares possível. A Figura 7.10 representa o diagrama de uma população 
dividida em H estratos. 


Figura 7.10 Diagrama da amostragem aleatória estratificada 
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Depois que os estratos sáo formados, extrai-se uma amostra aleatória simples de cada um deles. На fór- 
mulas disponíveis para se combinar os resultados das amostras de estrato individuais em uma estimativa 
do parámetro populacional de interesse. O valor da amostragem aleatória estratificada depende da homo- 
geneidade dos elementos contidos nos estratos. Se os elementos contidos nos estratos forem similares, os 
estratos teráo baixas variáncias. Desse modo, tamanhos de amostra relativamente pequenos podem ser usa- 
dos para se obter boas estimativas das características dos estratos. Se os estratos forem homogéneos, o pro- 
cedimento de amostragem aleatória estratificada produzirá resultados táo precisos quanto os da amostra- 
gem aleatória simples, mas utilizando um tamanho total de amostra menor. 


Amostragem por Conglomerados 


Na amostragem por conglomerados, os elementos da população são divididos primeiramente em grupos 
distintos denominados conglomerados. Cada elemento da população pertence a um e somente a um con- 
glomerado (veja a Figura 7.11). Extrai-se, então, uma amostra aleatória simples dos conglomerados. Todos 
os elementos contidos em cada conglomerado amostrado formam a amostra. А amostragem por conglome- 
rados tende a produzir os melhores resultados quando os elementos neles contidos não são similares. No 
caso ideal, cada conglomerado é uma versão representativa em pequena escala da população inteira. O valor 
da amostragem por conglomerados depende de quão representativo é cada conglomerado da população 
inteira. Se todos os conglomerados forem similares nesse sentido, a amostragem de um pequeno número de 
conglomerados produzirá boas estimativas dos parâmetros populacionais. 


Figura 7.11 Diagrama da amostragem por conglomerados 
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Uma das principais aplicações da amostragem por conglomerados é a amostragem por áreas, em que os 
conglomerados são quarteirões de uma cidade ou outras áreas bem definidas. A amostragem por conglome- 
rados geralmente requer um tamanho maior de amostra total do que a amostragem aleatória simples ou a 
amostragem aleatória estratificada. Entretanto, ela pode resultar em economias de custo pelo fato de que, 
quando um entrevistador é enviado a um conglomerado amostrado (por exemplo, uma localização em um 
quarteirão da cidade), muitas observações amostrais podem ser obtidas em um tempo relativamente breve. 
Portanto, um tamanho maior de amostra pode ser obtido com um custo total significativamente menor. 


Amostragem Sistemática 


Em algumas situações de amostragem, especialmente quando se trata de grandes populações, consome 
muito tempo selecionar uma amostra aleatória simples pelo método de encontrar primeiramente um núme- 
ro aleatório e depois contar ou pesquisar a lista da população até que o elemento correspondente seja encon- 
trado. Uma alternativa à amostragem aleatória simples é a amostragem sistemática. Por exemplo, quando 
se deseja um tamanho de amostra 50 de uma população que contém 5 mil elementos, extrai-se como amos- 
tra um elemento em cada 5.000/50 = 100 elementos da população. Uma amostra sistemática, nesse caso, 
envolve selecionar aleatoriamente um dos primeiros 100 elementos da lista da população. Os outros elemen- 
tos da amostra são identificados começando-se com o primeiro elemento amostrado e selecionando-se então 
cada 100º elemento seguinte na lista da população. Com efeito, a amostra de 50 é identificada deslocando- 
se sistematicamente entre a população e identificando-se cada 100º elemento seguinte ao primeiro elemen- 
to selecionado aleatoriamente. A amostra de 50 geralmente será mais fácil de identificar dessa maneira do 
que se usássemos a amostragem aleatória simples. Como o primeiro elemento selecionado é uma escolha 
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aleatória, geralmente se presume que uma amostra sistemática tem as propriedades de uma amostra aleató- 
ria simples. Essa hipótese é aplicável especialmente quando a lista de elementos da população apresenta 
uma organização aleatória dos elementos. 


Amostragem de Conveniéncia 


Os métodos de amostragem discutidos até agora são chamados técnicas de amostragem probabilística. Os 
elementos selecionados da população têm uma probabilidade conhecida de serem incluídos na amostra. A 
vantagem da amostragem probabilística é que a distribuição amostral apropriada da estatística da amostra 
geralmente pode ser identificada, Fórmulas como as da amostragem aleatória simples, apresentadas neste 
capítulo, podem ser utilizadas para determinarmos as propriedades da distribuição amostral. Depois, a dis- 
tribuição amostral pode ser usada para fazermos afirmações probabilísticas a respeito do erro associado 
aos resultados amostrais. 

A amostragem de conveniência é uma técnica de amostragem náo-probabilística. Como o nome 
implica, a amostra é identificada primeiramente por conveniência. Elementos são incluídos na amostra 
sem probabilidades previamente especificadas ou conhecidas de eles serem selecionados. Por exemplo, um 
professor que faz pesquisas em uma universidade pode utilizar estudantes voluntários para compor uma 
amostra, simplesmente porque eles estão disponíveis e participarão como objetos de experiência por pouco 
ou nenhum custo. Analogamente, um inspetor pode extrair uma amostra de um embarque de laranjas sele- 
cionando-as casualmente de vários engradados. Rotular cada laranja e usar o método probabilístico de 
amostragem seria impraticável. Amostras tais como de animais selvagens capturados e de grupos de volun- 
tários para pesquisa de consumidores também são amostras de conveniência. 

As amostras de conveniência têm a vantagem de permitir que a escolha de amostras e a coleta de dados 
sejam relativamente fáceis; entretanto, é impossível avaliar a “excelência” da amostra em termos de sua 
representatividade da população. Uma amostra de conveniência tanto pode produzir bons resultados como 
não; nenhum procedimento estatisticamente justificável possibilita uma análise de probabilidade e inferên- 
cia sobre a qualidade dos resultados da amostra. 

Às vezes, os pesquisadores aplicam a amostras de conveniência certos métodos estatísticos projetados 
especificamente para amostras probabilísticas, argumentando que uma amostra de conveniência pode ser 
tratada como se fosse uma amostra probabilística. Entretanto, esse argumento não é sustentável, e deve- 
mos ser cautelosos ao interpretar os resultados das amostras de conveniência que são utilizados para fazer 
inferências sobre populações. 


Amostragem de Julgamento 


Uma técnica adicional de amostragem não-probabilística é a amostragem de julgamento. Nessa aborda- 
gem, a pessoa que conhece mais profundamente o tema do estudo escolhe os elementos que julga serem os 
mais representativos da população. Freqüentemente, esse método é uma maneira relativamente fácil de sele- 
cionar uma amostra. Por exemplo, um repórter pode tomar como amostra dois ou três senadores, julgando 
que eles refletem a opinião geral de todos os senadores. Entretanto, a qualidade dos resultados da amostra 
depende do julgamento da pessoa que a seleciona. Novamente, recomendamos muita cautela ao tirar con- 
clusões baseadas em amostras de julgamento que são utilizadas para fazer inferências sobre populações. 


NOTAS E COMENTÁRIOS 


Recomendamos o uso de métodos de amostragem probabilística: amostragem aleatória simples, amos- 
tragem aleatória estratificada, amostragem por conglomerados ou amostragem sistemática. Em relação 
a esses métodos, há fórmulas disponíveis para avaliar a “excelência” dos resultados amostrais em ter- 
mos de quão próximos eles estão dos parâmetros populacionais a serem determinados, Uma avaliação 
da excelência não pode ser feita com base em amostragens de conveniência ou de julgamento. Desse 
modo, devemos tomar muito cuidado ao interpretar resultados baseados em métodos de amostragem 
não-probabilísticos. 
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Resumo 


Neste capítulo apresentamos os conceitos de amostragem aleatória simples e de distribuições amostrais. 
Demonstramos como uma amostra aleatória simples pode ser selecionada e como os dados coletados para 
a amostra podem ser utilizados para desenvolvermos estimações por ponto dos parâmetros populacionais. 
Uma vez que diferentes amostras aleatórias simples produzem diferentes valores para os estimadores por 
ponto, os estimadores por ponto como X e p são variáveis aleatórias. A distribuição probabilística desse 
tipo de variável aleatória denomina-se distribuição amostral. Em especial, descrevemos as distribuições 
amostrais da média amostral X e da proporção amostral p. 

Ao considerar as características das distribuições amostrais de х e p, estabelecemos que E(X) = ие 
E(p) = p. Depois de desenvolvermos as fórmulas do desvio padrão, ou erro padrão, desses estimadores, des- 
crevemos as condições necessárias para que as distribuições amostrais de X e p sigam uma distribuição nor- 
mal. Foram discutidos outros métodos de amostragem, entre os quais se contam a amostragem aleatória estra- 
tificada, a amostragem por conglomerados, a amostragem sistemática, a amostragem de conveniência e a 
amostragem de julgamento. 


Glossário 


Parâmetro Uma característica numérica da população, como a média populacional и, o desvio padrão da 
população o, a proporção populacional р e assim por diante. 

Amostragem aleatória simples População finita: uma amostragem escolhida de maneira que cada amos- 
tra possível de tamanho n tenha a mesma probabilidade de ser selecionada. População infinita: uma 
amostra selecionada de tal forma que cada elemento vem da mesma população e os elementos são sele- 
cionados independentemente. 

Amostragem sem substituição Tão logo um elemento é incluído na amostra, ele é eliminado da popula- 
ção e não pode ser escolhido uma segunda vez. 

Amostragem com substituição Tão logo um elemento é incluído na amostra, ele é devolvido à popula- 
ção. Um elemento selecionado anteriormente pode ser selecionado novamente e, portanto, pode apare- 
cer na amostra mais de uma vez. : 

Estatística da amostra Uma característica da amostra, por exemplo, uma média amostral X, um desvio 
padrão da amostra s, uma proporção da amostra p e assim por diante, O valor da estatística da amos- 
tra é usado para estimar o valor do parâmetro populacional correspondente, 

Estimação por ponto A estatística da amostra, por exemplo, x, s ou p, que fornece o estimador por ponto 
do parámetro populacional, 

Estimativa por ponto O valor de um estimador por ponto usado em um caso em particular como estima- 
tiva de um parámetro populacional. 

Distribuição amostral Uma distribuição de probabilidade que consiste em todos os valores possíveis de 
uma estatística amostral. 

Sem viés Uma propriedade de um estimador por ponto que está presente quando o valor esperado do esti- 
mador por ponto é igual ao parâmetro populacional que ele estima. 

Fator de correção para populações finitas O termo V(N — n)/(N — 1) que é usado nas fórmulas para 
оу € ор, sempre que uma população finita, em vez de uma infinita, é amostrada. A regra prática geral- 
mente aceita é ignorar o fator de correção para populações finitas sempre que n/N = 0,05. 

Erro padrão O desvio padrão de um estimador por ponto. 

Teorema do limite central Um teorema que nos possibilita usar a distribuição normal de probabilidade 
para fazer a aproximação à distribuição amostral de X sempre que o tamanho da amostra for grande. 

Amostragem aleatória estratificada Um método de amostragem probabilística no qual a população pri- 
meiramente é dividida em estratos e então se toma uma amostra aleatória simples de cada estrato, 

Amostragem por conglomerados Um método de amostragem probabilística no qual a população primei- 
ramente é dividida em conglomerados e então se toma uma amostra aleatória simples dos aglomerados. 

Amostragem sistemática Um método de amostragem probabilística no qual selecionamos aleatoriamen- 
te um dos primeiros k elementos e depois selecionamos cada k-ésimo elemento seguinte. 

Amostragem de conveniência Um método não-probabilístico de amostragem em que os elementos são 
selecionados para a amostra com base na conveniência. 

Amostragem de julgamento Um método não-probabilístico de amostragem em que os elementos são 
selecionados para a amostra com base no julgamento da pessoa que realiza o estudo. 
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Fórmulas-Chave 
Valor Esperado de x 
EG) = и (7.1) 
Desvio Padrão (Erro padrão) de x 
População Finita População Infinita 
N—nío а 
о; = VG a (7.2) 
Valor Esperado de p 
ED =p (7.4) 


Desvio Padrão (Erro padrão) de p 
População Finita População Infinita 


= Non р-р) = Ра – р) 
05 = N-I н o; п (7.5) 


Exercícios Suplementares 


42. O Corporate Scoreboard (Placar Corporativo) da Business Week publica dados trimestrais sobre vendas, 


43. 


45. 


lucros, renda líquida, retorno sobre o patrimônio líquido, razão preço/rendimentos, e rendimentos por 
ação de 899 empresas (Business Week, 14 de agosto de 2000). As empresas podem ser enumeradas dé 
1 a 899 na ordem em que aparecem na lista do Corporate Scoreboard. Inicie na parte inferior da seguh- 
da coluna de dígitos aleatórios da Tabela 7.1. Ignorando os dois primeiros dígitos de cada grupo e vsan- 
do números aleatórios de trés dígitos que se iniciam com 12, leia a coluna de baixo para cima para iden- 
tificar o número (de 1 a 899) das oito primeiras empresas a serem incluídas em uma amostra aleatória 
simples. 

O povo norte-americano demonstra uma preocupação cada vez maior com os crescentes custos dos 
planos de saúde. Em 1990, a média de gastos anuais por segurado era US$ 3.267; em 2003, a média 
de gastos anuais por segurado era US$ 6.883 (Money, outono de 2003). Suponha que você contratou 
uma empresa de consultoria para tomar uma amostra de 50 segurados em 2003 para aprofundar a 
investigação sobre a natureza dos gastos. Suponha que o desvio padrão da população para 2003 tenha 
sido US$ 2 mil. 


a. Apresente a distribuição amostral da quantia média de gastos com planos de saúde corresponden- 
te a uma amostra de 50 segurados em 2003. 

b. Qual é a probabilidade de a média amostral estar dentro de +US$ 300 da média da população? 

c. Qual é a probabilidade de a média amostral ser maior do que US$ 7.500? Se a empresa de consul- 
toria lhe disser que a média amostral dos segurados que entrevistaram foi de US$ 7.500, você per- 
guntaria se eles seguiram procedimentos corretos de amostragem aleatória simples? Por quê? 


A Business Week pesquisou ex-alunos de cursos de MBA dez anos após a graduação (Business Week, 

22 de setembro de 2003). Uma revelação foi que os ex-alunos gastam em média US$ 115,50 por 

semana com almoços ou jantares sociais. Você foi solicitado a realizar um estudo de acompanhamen- 

to, tomando uma amostra de 40 desses ex-alunos de MBA. Suponha que o desvio médio da popula- 

ção seja US$ 35,00. 

a. Apresente a distribuição amostral de X, a média amostral de gastos semanais dos 40 ex-alunos de MBA. 

b. Qual é a probabilidade de a média amostral estar dentro de US$ 10 da média da população? 

c. Suponha que você encontre uma média amostral de US$ 100. Qual é a probabilidade de encontrar 
uma média amostral de US$ 100 ou menos? Você consideraria essa amostra é de um grupo de ex- 
alunos com gastos incomumente baixos? Por quê? 


A média de tempo que os norte-americanos passam assistindo à televisão é de 15 horas por semana 
(Money, novembro de 2003). Suponha que uma amostra de 60 norte-americanos seja tomada para que 
se investigue com mais profundidade os hábitos relativos à TV. Suponha que o desvio padrão da 
população referente ao tempo semanal que passam assistindo à TV seja o = 4 horas. 
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46. 


47. 


48. 


49. 


50. 


51. 


52. 


53, 


а. Qual é a probabilidade de a média da amostra estar dentro de 1 hora da média da população? 
b. Qual é a probabilidade de a média da amostra estar dentro de 45 minutos da média da população? 


O salário anual médio dos servidores públicos federais do estado de Indiana é US$ 41.979 (The World 
Almanac 2001). Use esse valor como média populacional e suponha que o desvio padrão da popula- 
ção seja o = US$ 5.000. Suponha que uma amostra aleatória de 50 servidores públicos federais seja 
selecionada da população. 


a. Qual é o valor do erro padrão da média? 

b. Qual é a probabilidade de a média da amostra ser maior que US$ 41.979? 

c. Qual é a probabilidade de a média da amostra estar dentro de US$ 1.000 da média da população? 
d. Como a probabilidade do item (c) se alteraria se o tamanho da amostra fosse aumentado para 100? 


Três firmas têm inventários que diferem quanto ao tamanho. O inventário da firma A contém 2 mil 
itens, o inventário da firma B contém 5 mil itens, e o inventário da firma C contém 10 mil itens. O 
desvio padrão da população quanto ao custo dos itens é o = 144. Um consultor em estatística reco- 
menda que cada firma extraia uma amostra de 50 itens de seu inventário para produzir estimativas 
estatisticamente válidas do custo médio por item. Os gerentes da pequena empresa declaram que, já 
que ela possui a menor população, seriam capazes de fazer a estimativa utilizando uma amostra muito 
menor do que seria necessária para empresas maiores. Entretanto, o consultor afirma que para obter 
o mesmo desvio padrão e, desse modo, a mesma precisão nos resultados amostrais, todas as empre- 
sas devem usar o mesmo tamanho de amostra, independentemente do tamanho da população. 


a. Usando o fator de correção para populações finitas, calcule o erro padrão correspondente a cada 
uma das três firmas, dada uma amostra de tamanho 50. 

b. Qual é a probabilidade de a média amostral x correspondente a cada uma das firmas estar dentro 
de +25 da média populacional 4? 


Um pesquisador relata os resultados de uma pesquisa afirmando que o erro padrão da média é 20. O 
desvio padrão da população é 500. 

a. Qual é o tamanho da amostra utilizada nessa pesquisa? 

b. Qual é a probabilidade de a estimação por ponto estar dentro de +25 da média da população? 


Um processo de produção é checado periodicamente por um inspetor de controle da qualidade. O ins- 
petor seleciona amostras aleatórias simples de 30 produtos acabados e calcula a média X de peso dos 
produtos da amostra. Se os resultados dos testes realizados no decorrer de um longo período mostram 
que 5% dos valores de X estão acima de 2,1 libras (0,95 kg) e que 5% estão abaixo de 1,9 libra (0,86 
kg), quais são a média e o desvio padrão da população de produtos produzidos sob esse processo? 


Em 13 de junho de 2001, 30,5% dos investidores individuais eram altistas (bullish) no mercado de 
títulos de curto prazo (AAJ Journal, julho de 2001). Responda às seguintes questões considerando 
que seja usada uma amostra de 200 investidores individuais. 


a. Apresente a distribuição amostral de р, a proporção amostral de investidores individuais que são 
altistas no mercado de títulos de curto prazo. 

b. Qual é a probabilidade de a proporção amostral estar dentro de +0,04 da proporção populacional? 

c. Qual é a probabilidade de a proporção amostral estar dentro de +0,02 da proporção populacional? 


Uma firma de pesquisa de mercado realiza pesquisas telefônicas com um índice histórico de 40% de 
respostas. Qual é a probabilidade de, em uma nova amostra de 400 números telefônicos, pelo menos 
150 pessoas colaborarem e responderem às perguntas? Em outras palavras, qual é a probabilidade de 
a proporção da amostra ser de, pelo menos, 150/400 = 0,375? 


De acordo com a ORC International, 71% dos usuários da internet conectam seus computadores à 

rede por meio de linhas telefônicas convencionais (USA Today, 18 de janeiro de 2000). Considere 

uma proporção populacional p = 0,71. 

a. Qual é a probabilidade de a proporção amostral de uma amostra aleatória simples de 350 usuários 
da internet estar dentro de +0,05 da proporção populacional? 

b. Qual é a probabilidade de a proporção amostral de uma amostra aleatória simples de 350 usuários 
da internet ser de 0,75 ou maior? 


A proporção de indivíduos segurados pela All-Driver Automobile Insurance Company que receberam 
pelo menos uma multa de trânsito durante um período de cinco anos é 0,15. 
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a. Mostre qual seria a distribuição amostral de р se uma amostra aleatória de 150 indivíduos segurados 
fosse utilizada para estimar a proporção dos que receberam pelo menos uma multa de trânsito. 
b. Qual é a probabilidade de a proporção da amostra estar dentro de +0,03 da proporção da população? 


54. Lori Jeffrey é uma bem-sucedida representante de vendas de uma grande editora de livros universitá- 
rios. Historicamente, Lori consegue fazer que adotem um livro em 25% de seus contatos de vendas. 
Tomando seus contatos de vendas realizados durante um mês como uma amostra de todos os conta- 
tos de vendas possíveis, considere que uma análise estatística dos dados produza um erro padrão da 
proporção igual a 0,0625. 

a. Qual é o tamanho da amostra usada nessa análise? Ou seja, quantos contatos de vendas Lori fez 
durante o mês? А 

b. Considere que р indica a proporção amostral de adoção de livros durante о mês. Apresente a dis- 
tribuição amostral p. . 

c. Usando a distribuição amostral de p, calcule a probabilidade de Lori fazer que adotem livros em 
30% ou mais de seus contatos de vendas durante o período de um mês? 


Apéndice 7.1 – Amostragem Aleatória com o Minitab 


Se uma relação dos elementos de uma população estiver disponível em um arquivo do Minitab, esse pro- 
grama pode ser usado para selecionar uma amostra aleatória simples. Por exemplo, uma relação das 100 
maiores regiões metropolitanas dos Estados Unidos e do Canadá é apresentada na coluna 1 do conjunto de 
dados (data set) MetAreas (Places Rated Almanac — The Millennium Edition 2000). A coluna 2 contém 
uma classificação global de cada região metropolitana. As dez primeiras regiões metropolitanas do con- 
junto de dados e suas classificações correspondentes são apresentadas na Tabela 7.6. 

Suponha que você queira selecionar uma amostra aleatória simples de 30 regiões metropolitanas a fim 
de realizar um estudo detalhado do custo de vida nos Estados Unidos e no Canadá. As etapas a seguir 
podem ser usadas para selecionar a amostra. 


Etapa 1. Selecione o menu Cale 

Etapa 2. Escolha Random Data 

Etapa 3. Escolha Sample From Columns 

Etapa4. Quando a caixa de diálogo Sample From Columns aparecer: 
Digite 30 na caixa Sample 
Digite C1 C2 na caixa de baixo 
Digite C3 C4 na caixa Store samples in 

Etapa 5. Рё um clique em OK 


A amostra aleatória de 30 regiões metropolitanas aparecerá nas colunas C3 e C4. 


Apéndice 7.2 — Amostragem Aleatória com o Excel 


Se uma relação dos elementos de uma população estiver disponível em um arquivo do Excel, esse progra- 
ma pode ser usado para selecionar uma amostra aleatória simples. Por exemplo, uma relação das 100 maio- 
res regiões metropolitanas dos Estados Unidos e do Canadá é apresentada na coluna A do conjunto de 
dados (data set) MetAreas (Places Rated Almanac — The Millennium Edition 2000). A coluna B contém 
uma classificação global de cada região metropolitana. As dez primeiras regiões metropolitanas do con- 
junto de dados e suas classificações correspondentes são apresentadas na Tabela 7.6. Suponha que você 
queira selecionar uma amostra aleatória simples de 30 regiões metropolitanas a fim de realizar um estudo 
detalhado do custo de vida nos Estados Unidos e no Canadá. 
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Tabela 7.6 Classificação global das dez primeiras regiões metropolitanas 
do conjunto de dados (data set) MetAreas 


Região Metropolitana Classificação Região Metropolitana Classificação 
Albany, NY 64,18 Baltimore, MD 69,75 
Albuquerque, NM 66,16 Birmingham, AL 69,59 
Appleton, WI 60,56 Boise City, ID 68,36 
Atlanta, GÀ 69,97 Boston, MA 68,99 
Austin, TX 71,48 Buffalo, NY 66,10 


As linhas de qualquer conjunto de dados do Excel podem ser dispostas em ordem aleatória acrescen- 
tando-se uma coluna extra ao conjunto de dados e preenchendo-se a coluna com números aleatórios com 
o uso da função = ALEATÓRIO ( ). Então, usando-se a capacidade de classificação em ordem crescente 
do Excel na coluna de números aleatórios, as linhas do conjunto de dados serão reorganizadas aleatoria- 
mente. A amostra aleatória de tamanho п aparecerá nas primeiras п linhas do conjunto de dados reorgani- 
zado. 

No conjunto de dados MetAreas, os rótulos estão na linha 1 e as 100 regiões metropolitanas estão nas 
linhas 2 a 101. As etapas a seguir podem ser usadas para selecionar uma amostra aleatória simples de 30 
regiões metropolitanas. 


Etapal. Digite =ALEATÓRIO() na célula C2 
Etapa2. Copie célula C2 para as células C3:C101 
Etapa3. Selecione qualquer célula da coluna C 
Etapa4. Рё um clique no botão Classificar Crescente 


A amostra aleatória de 30 regiões metropolitanas aparecerá nas linhas 2 a 31 do conjunto de dados reorgani- 
zado. Os números aleatórios na Coluna C não são mais necessários e podem ser excluídos, se você quiser. 
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CAPÍTULO 8 


Estimação por Intervalo 


ESTATÍSTICA NA PRÁTICA 


FOOD LION* 
Salisbury, Carolina do Norte 


Fundada em 1957 com o nome de Food Town, a Food Lion é uma das maiores redes de supermercado dos 
Estados Unidos, com 1.200 lojas em | | estados do sudeste e da região Mid-Atlantic,! А empresa vende mais 
de 24 mil diferentes produtos e oferece artigos de marca que têm publicidade em nível nacional e regional, 
bem como um crescente número de produtos com rótulo privado de alta qualidade manufaturados especial- 
mente para a Food Lion. A empresa mantém sua liderança em preços baixos e garantia da qualidade pelas efi- 
ciências operacionais, como formatos de loja padronizados, projeto inovador de armazéns, instalações com 
uso eficiente da energia e sincronização de dados com os fornecedores. A Food Lion visa a um futuro de con- 
tínuas inovações, crescimento, liderança de preços e atendimento aos seus clientes. 

Sendo integrante de um setor intensivo em inventários, a Food Lion decidiu adotar o método Ueps (ülti- 
mo a entrar, primeiro a sair) de avaliação de inventários. Esse método compara os custos atuais com as recei- 
tas atuais, o que minimiza os efeitos das variações radicais de preço sobre os resultados de lucros e prejuízos. 
Além disso, o método Ueps reduz a receita líquida, diminuindo assim os impostos sobre a renda durante os 
períodos de inflação. 

A Food Lion estabelece um índice Ueps para cada um dos sete agrupamentos de inventário: produtos de 
mercearia, papelaria e produtos domésticos, suprimentos para animais de estimação, saúde e beleza, laticí- 
nios, cigarros e tabaco e cervejas e vinhos. Por exemplo, o índice Ueps de 1,008 para o agrupamento pro- 


* Os autores agradecem a Keith Cunningham, diretor do Departamento Fiscal da Food Lion, e a Bobby Harkey, da equipe de 
Contabilidade Fiscal da Food Lion por fornecer esta “Estatística na Prática”. 

1 NT: Mid-Atlantic. Adj. — Caracterizado pela combinação de elementos, influências etc. — britânicos e norte-americanos. Diz-se 
dos estados norte-americanos que apresentam essas características. — 
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dutos de mercearia indicaria que o valor de estoque dos produtos de mercearia da empresa aos custos atuais 
reflete um aumento de 0,8% em virtude da inflação no período mais recente de um ano. 

O estabelecimento de um índice Ueps para cada agrupamento de inventário exige que a contagem de esto- 
que de fim de ano referente a cada produto seja avaliada ao custo do fim de ano corrente e ao custo do fim de 
ano anterior. Para evitar o tempo e os gastos excessivos associados à contagem de estoques em todas as 1.200 
lojas, a Food Lion seleciona uma amostra aleatória de 50 lojas. 

São tomados os estoques físicos de fim de ano de cada uma das lojas da amostra. Os custos de cada item 
no ano corrente e do ano anterior são então utilizados para construir os índices Ueps necessários a cada agru- 
pamento de inventário. 

Em um ano recente, a estimativa amostral do índice Ueps referente ao agrupamento de inventário saúde e 
beleza foi de 1,015. Utilizando um grau de confiança de 95%, a Food Lion calculou a margem de erro de 0,006 
para a estimativa amostral, Desse modo, o intervalo de 1,009 a 1,021 produziu uma estimação por intervalo do 
Índice Ueps da população com um grau de confiança de 95%. Esse índice de precisão foi considerado muito bom. 

Neste capítulo, você aprenderá a calcular a margem de erro associada a estimativas amostrais. Você tam- 
bém aprenderá a usar essa informação para construir e interpretar estimações por intervalo de uma média da 
população e de uma proporção da população. 


No Capítulo 7, afirmamos que um estimador por ponto é uma estatística da amostra usada para estimar um 
parâmetro populacional. Por exemplo, a média X da amostra é um estimador por ponto da média popula- 
cional и, e a proporção p da amostra é um estimador por ponto da proporção p da população. Uma vez 
que não se pode esperar que um estimador por ponto produza o valor exato do parâmetro populacional, 
uma estimação por intervalo frequentemente é calculada adicionando-se e subtraindo-se um valor, deno- 
minado margem de erro, ao estimador por ponto. A forma geral de uma estimação por intervalo é a 
seguinte: 


Estimação por ponto + Margem de erro 


A finalidade de uma estimação por intervalo é fornecer informações sobre quão próximo o estimador 
por ponto, produzido pela amostra, está do valor do parâmetro populacional. 

Neste capítulo, mostraremos como calcular estimativas por intervalo de uma média и da população e 
de uma proporção p da população. A forma geral de uma estimação por intervalo de uma média popula- 
cional é: 


X + Margem de erro 
Similarmente, a forma geral de uma estimação por intervalo de uma proporção populacional é: 
p + Margem de erro 


As distribuições amostrais de х e p desempenham papéis fundamentais no cálculo dessas estimações por 
intervalo. 


8.1 MÉDIA DA POPULAÇÃO: с CONHECIDO 


Para desenvolver uma estimação por intervalo da média de uma população, o desvio padrão o da popula- 
ção ou o desvio padrão s da amostra deve ser usado para calcularmos a margem de erro. Na maioria das 
aplicações, o não é conhecido, e usa-se s para calcular a margem de erro. Em algumas aplicações, entre- 
tanto, grandes quantidades de dados históricos relevantes estão disponíveis e podem ser utilizadas para cal- 
cular o desvio padrão da população antes de se fazer a amostragem. Igualmente, em aplicações de contro- 
le da qualidade nas quais se supõe que um processo esteja operando corretamente, ou “sob controle”, é 
apropriado tratarmos o desvio padrão da população como conhecido. Referimo-nos a esse tipo de caso 
como aquele que apresenta o conhecido. Nesta seção, apresentamos um exemplo em que é razoável tra- 
tarmos о como conhecido e mostramos como construir uma estimação por intervalo para esse caso. 
Semanalmente, a Lloyd's Department Store seleciona uma amostra aleatória simples de cem clientes 
para saber qual quantia eles gastam em cada ida às compras. Com x representando a quantia gasta em cada 
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ida às compras, a média amostral X fornece uma estimação por ponto de д, que é a quantia média gasta em 
cada ida às compras pela população de todos os clientes da empresa. A Lloyd's usa essa pesquisa semanal 
há vários anos. Baseando-se nos dados históricos, a empresa assume agora um valor conhecido de 
о = US$ 20 para o desvio padrão da população. Os dados históricos também indicam que a população 
segue uma distribuição normal. 

Durante a semana mais recente, a Lloyd's pesquisou 100 clientes (n — 100) e obteve a média x da amos- 
tra — US$ 82,00. A quantia média gasta pela amostra fornece uma estimagáo por ponto da quantia média 
gasta pela população em cada ida às compras. Na discussão a seguir, mostramos como calcular a margem 
de erro dessa estimação e como desenvolver uma estimação por intervalo da média da população. 


Margem de Erro e a Estimação por Intervalo 


No Capítulo 7, mostramos que a distribuição amostral de X pode ser usada para calcularmos a probabili- 
dade de X estar dentro de determinada distância de и. No exemplo da Lloyd's, os dados históricos mos- 
tram que a população das quantias gastas está normalmente distribuída, com um desvio padrão o =20. 
Então, utilizando o que aprendemos no Capítulo 7, podemos concluir que a distribuição amostral de X 
segue uma distribuição normal, com um erro padrão de o; = о/ Уп = 20/V100 = 2. Essa distribuição 
amostral é mostrada na Figura 8.1.2 


Figura 8.1 Distribuição amostral da quantia média que os integrantes da amostra gastaram, obtida de 
amostras aleatórias simples de 100 clientes 


Distribuição amostral 
dex 


Uma vez que a distribuição amostral mostra como os valores de x estão distribuídos nas proximidades 
da média populacional и, a distribuição amostral de X fornece informações sobre as possíveis diferenças 
entre X e 4. 

Usando a tabela de áreas da distribuição normal padrão, descobrimos que 95% dos valores de qualquer 
variável aleatória normalmente distribuída estão dentro de +1,96 desvio padrão da média. Desse modo, 
quando a distribuição amostral de X está normalmente distribuída, 95% dos valores de x devem estar den- 
tro de +1,960; da média д. No exemplo da Lloyd's, sabemos que a distribuição amostral de x está normal- 
mente distribuída, com um erro padrão de 0;=2. Uma vez que +1,96 о; =1,96(2) =3,92, podemos con- 
cluir que 95% de todos os valores de х, obtidos usando-se um tamanho de amostra п = 100, estarão den- 
tro de +3,92 da média populacional и. Veja a Figura 8.2. 


2 Usamos o fato de que a população de quantias gastas tem uma distribuição normal para concluir que a distribuição amostral de X 
tem uma distribuição normal. Se a população não tivesse uma distribuição normal, poderíamos recorrer ao teorema do limite central 
е ao tamanho da amostra п =100 para concluir que a distribuição amostral de x é aproximadamente normal. Em qualquer um dos 
casos, a distribuição amostral de х se assemelharia à que é apresentada na Figura 8.1. 
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Figura 8.2 Distribuição amostral de x indicando a localização das médias amostrais 
que estão dentro de 3,92 deu 


Distribuição amostral 
dex 


* 95% detodosos : 
valores de x 


Xi 


196 ах 1.96 ag 


Na introdução deste capítulo, dissemos que a forma geral da estimação por intervalo da média popu- 
lacional и é + a margem de erro. No exemplo da Lloyd's, suponha que definamos a margem de erro em 
3,92 para calcular a estimação por intervalo de и usando x +3,92. Para produzirmos uma interpretação para 
essa estimação por intervalo, vamos considerar os valores de X que poderiam ser obtidos se tivéssemos 
tomado três diferentes amostras aleatórias simples, cada uma das quais consistindo em 100 clientes da 
Lloyd's. A primeira média amostral poderia assumir o valor apresentado como х; na Figura 8.3. Nesse 
caso, a Figura 8.3 mostra que o intervalo formado ao subtrair-se 3,92 de X, e adicionar-se 3,92 a x, inclui 
a média populacional и. Considere agora o que acontece se a segunda média amostral assumir o valor apre- 
sentado como x, na Figura 8.3. Não obstante essa média amostral diferir da primeira média amostral, nota- 
mos que o intervalo formado ao subtrair-se 3,92 de x, e adicionar-se 3,92 a x, também inclui a média popu- 
lacional и. Entretanto, considere o que acontece se a terceira média amostral assumir o valor apresentado 
como X; na Figura 8.3. Nesse caso, o intervalo formado ao subtrair-se 3,92 de x, e adicionar-se 3,92 a X, 
não inclui a média populacional 4. Uma vez que х; se situa na cauda superior (upper tail) da distribuição 
amostral e tem um afastamento maior que 3,92 de и, subtrair ou adicionar 3,92 а x4 forma um intervalo 
que não inclui и. 

Qualquer média amostral x que esteja dentro da área com sombreamento mais escuro da Figura 8.3 for- 
necerá um intervalo que contém a média populacional и. Visto que 95% de todas as médias amostrais pos- 
síveis estão na área com sombreamento mais escuro, 95% de todos os intervalos formados subtraindo-se 
3,92 de x ou adicionando-se 3,92 a x incluirão a média populacional д. 

Lembre-se de que durante a semana mais recente, a equipe de garantia da qualidade da Lloyd's pes- 
quisou 100 clientes e obteve uma média amostral de quantias gastas de x =82. Usando x +3,92 para cons- 
truir a estimação por intervalo, obtemos 82 + 3,92. Assim, a estimação por intervalo de и específica basea- 
da nos dados da semana mais recente é igual a 82 — 3,92 = 78,08 a 82 + 3,92 = 85,92. Uma vez que 95% 
de todos os intervalos construídos usando-se X + 3,92 conterão a média populacional, dizemos que temos 
95% de confiança em que o intervalo 78,08 a 85,92 inclui a média populacional x. Dizemos que esse inter- 
valo foi estabelecido com o grau de confiança de 95%. O valor 0,95 denomina-se coeficiente de confian- 
ça, е o intervalo de 78,08 a 85,92 é chamado intervalo de confiança de 95%. 
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Figura 8.3 Intervalos formados a partir das médias amostrais selecionadas nas posições хц, ху е хз 
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média populacional para o caso de с conhecido é é a seguinte: 


ESTIMAÇÃO POR INTERVALO DE UMA MEDIA POPULACIONAL: а CONHECIDOS Ё b ou nos 
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em que (1 — а) é o coeficiente de confiança е D é o valor z que produz uma área de o/2 na caida deu de. 
superior da distribuição normal padrão de probabilidade. ` E : 


Vamos usar а Equação 8.1 para construir um intervalo de confiança de 95% рага o exemplo da Lloyd's. 
Para um intervalo de confiança de 95%, o coeficiente de confiança é (1 — а) =0,95 e, desse modo, 
а —0,05. Usando as tabelas de áreas da distribuição normal padrão, uma área de 0/2 —0,05/2 —0,025 na 
cauda superior produz Zo ozs =1,96. Com a média amostral de x —82, о —20 e um tamanho de amostra n 
.=100 para o caso da Lloyd's, obtemos Я ' 


2! 
* 82 + 196 20 E a 


. e "o vao ч. А 
: ' o 825392 ts i 


Dessa forma, usando a Equação 8.1, a margem de erro é 3 92, e o intervalo de confianga de 95% é 
82 - 3,92 = 78,08 a 82 + 3,92 = 85,92. a Н zr OU р. 
Não obstante um grau de confiança de 95% freqüentemente ser usado, outros gráus de confiança, por 
exemplo, 90% e 99%, podem ser considerados. A Tabela 8.1 apresenta os válores de 75,2 correspondentes 
aos graus de confiança mais comumente utilizados. Usando esses valores e a Equação 8. 1, o intervalo de 
confiança de 90% para o exemplo da Lloyd's é: n 5 ЕО tu Bo 
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20 
82 + 1,645 —— 
V100 
82 + 3,29 


Tabela 8.1 Valores де Zan correspondentes aos graus de confiança mais comumente utilizados 


Grau de Confiança a a/2 242 
9096 0,10 0,05 1,645 
9596 0,05 0,025 1,960 
9996 0,01 0,005 2,576 


Assim, com um grau de confiança de 90%, a margem de erro é 3,29 e o intervalo de confiança é 
82-3,29 =78,71 a 82 + 3,29 =85,29. Similarmente, o intervalo de confiança de 99% é: 


82 + 2,576 20. 


V100 


82 + 5,15 


Portanto, com um grau de confianga de 99%, а margem de erro ё 5,15 е o intervalo de confianga é 82 — 
5,15 = 76,85 а 82 + 5,15 = 87,15. 

Combinando os resultados correspondentes aos graus de confianga de 90%, 95% е 99%, observamos 
que, para termos um grau de confiança mais elevado, a margem de erro e, portanto, a amplitude do inter- 
valo de confianga devem ser maiores. 


Conselho Prático 


Se a população segue uma distribuição normal, o intervalo de confiança produzido pela Equação 8.1 é 
exato. Em outras palavras, se a Equação 8.1 fosse usada repetidamente para gerar intervalos de confiança 
de 95%, exatamente 95% dos intervalos gerados conteriam a média da população. Se a população não 
segue uma distribuição normal, o intervalo de confiança produzido pcla Equação 8.1 será aproximado. 
Nesse caso, a qualidade da aproximação depende tanto da distribuição da população como do tamanho da 
amostra. 

Na maioria das aplicações, um tamanho de amostra n = 30 é adequado quando se usa a Equação 8.1 
para desenvolver uma estimação por intervalo de uma média populacional. Se a população não está nor- 
malmente distribuída, mas é aproximadamente simétrica, pode-se esperar que tamanhos de amostra peque- 
nos, até mesmo de 15, produzam bons intervalos de confiança aproximados. Com tamanhos de amostra 
menores, a Equação 8.1 somente deve ser usada se o analista acreditar, ou estiver disposto a supor, que a 
distribuição populacional seja, no mínimo, aproximadamente normal. 


NOTAS E COMENTÁRIOS 


1. O procedimento dc estimação por intervalo discutido nesta seção baseia-se no pressuposto de que o 
desvio padrão ø seja conhecido. Por “o conhecido” queremos dizer que há dados históricos ou outras 
informações disponíveis que nos permitem obter uma boa estimativa do desvio padrão da população 
antes de tomarmos a mostra que será usada para desenvolver uma estimativa da média populacional. 
Então, tecnicamente, não queremos dizer que с seja, de fato, conhecido com certeza. Simplesmente, 
queremos dizer que obtivemos uma boa estimativa do desvio padrão antes de fazer a amostragem e, 
desse modo, não usaremos a mesma amostra para estimar tanto a média populacional como o desvio 
padrão da população. 


2. O tamanho n da amostra aparece no denominador da expressão de estimação por intervalo (Equação 8.1). 
Assim, se uma amostra em particular produzir um intervalo demasiadamente amplo para tcr uso prático, 
talvez queiramos considerar aumentar o tamanho da amostra. Com n no denominador, um tamanho de 
amostra maior produzirá uma margem de erro menor, um intervalo mais estreito e uma precisão maior. 
O procedimento para determinar o tamanho de uma amostra aleatória simples necessária para se obter a 
precisão desejada será discutido na Seção 8.3. 
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Exercícios 


Métodos 


1: 


Uma amostra aleatória simples de 40 itens resultou em uma média amostral 25. O desvio padrão da 
população é o =5. 

a. Qual é o erro padrão da média, 0;? 

b. Para um grau de confiança de 95%, qual é a margem de erro? 

Uma amostra aleatória simples de 50 itens de uma população, com o =6, resultou em uma média 
amostral igual a 32. 

а. Fornega um intervalo de confiança de 90% para a média populacional. 

b. Estime um intervalo de confiança de 95% para a média populacional. 

c. Providencie um intervalo de confiança de 99% para a média populacional. 


Uma amostra aleatória simples de 60 itens resultou em uma média amostral igual a 80. O desvio 

padrão o da população é igual a 15. 

a, Calcule o intervalo de confiança de 95% para a média populacional. 

b. Suponha que a mesma média amostral tenha sido obtida de uma amostra de 120 itens. Fomeça um 
intervalo de confiança de 95% da média populacional. 

c. Qual é o efeito de um tamanho de amostra maior sobre a estimação por intervalo? 

Sabe-se que o intervalo de confiança de 95% de uma média populacional é de 152 a 160. Seo —15, 

qual tamanho de amostra foi utilizado nesse estudo? 


Aplicações 


5. 


Em um esforço para estimar a quantia média que cada cliente gasta por jantar em um grande restau- 
rante de Atlanta, foram coletados dados de uma amostra de 49 clientes. Suponha um desvio padrão 
de US$ 5,00 para a população. 

a, Para um grau de confiança de 95%, qual é a margem de erro? 

b. Se a média amostral é US$ 24,80, qual é o intervalo de confiança de 95% para a média populacional? 


A Nielsen Media Research relatou que o tempo médio que as famílias passam assistindo à televisão, 
no período das 8h às 11h da noite, é de 8,5 horas por semana (The World Almanac 2003). Dado um 
tamanho de amostra de 300 famílias e um desvio padrão o da população igual a 3,5 horas, qual é a 
estimação por intervalo de confiança de 95% da média de tempo que as pessoas assistem à televisão 
durante o período das 8h às 11h da noite? 


Uma pesquisa de pequenos negócios com websites revelou que a quantia média gasta em um site era 
de US$ 11.500 por ano (Fortune, 5 de março de 2001). Dada uma amostra de 60 negócios e um des- 
vio padrão o da população igual a US$ 4 mil, qual é a margem de erro? Use 95% de confiança. O 
que você recomendaria se o estudo demandasse uma margem de erro de US$ 500? 


O National Quantity Research Center da Universidade de Michigan publica uma medida trimestral 
das opiniões dos consumidores sobre produtos e serviços (The Wall Street Journal, 18 de fevereiro de 
2003). Uma pesquisa de dez restaurantes do grupo Fast Food/Pizza revelou que a média amostral de 
satisfação do cliente tinha um índice igual a 71. Dados históricos indicam que o desvio padrão popu- 
lacional do índice era relativamente estável, com o —5. 


a. Qual suposição o pesquisador estaria disposto a fazer se fosse desejada uma margem de erro? 
b. Usando um grau de confiança de 95%, qual é a margem de erro? 
c. Qual é a margem de erro se for desejado um grau de confiança igual a 99%? 


O undergraduate grade point average (GPA) para estudantes matriculados nas melhores escolas de 
pós-graduação em Administração foi de 3,37 (Best Graduate Schools, U.S. News and Worid Report, 
2001). Suponha que essa estimativa tenha se baseado em uma amostra de 120 estudantes matricula- 
dos nas melhores escolas. Usando-se os dados de anos anteriores, o desvio padrão da população pode 


3 NT: GPA; Educ. — Média de notas, média escolar. Uma medida numérica do rendimento acadêmico baseada no cálculo do núme- 
10 de créditos e notas obtidas em todas as matérias até o presente. Baseia-se em uma escala de O a 4 (Estados Unidos). 


277 


AUTOTESTE 


AUTOTESTE 


278 


William Sealy 
Gosset, escritor 
que usava o 
pseudónimo 
“Student”, ёо 
descobridor da 
distribuição t. 
Gosset, graduado 
em Matemática 
pela Universidade 
de Oxford, 
trabalhava para a 
Guinness Brewery 
(Cervejarias 
Guinness), em 
Dublin, Irlanda. Ele 
desenvolveu a 
distribuição t 
enquanto 
trabalhava em 
materiais de 
pequena escala e 
experimentos com 
temperatura. 


Estatística Aplicada à Administracáo e Economia 


ser considerado conhecido, com o —0,28. Qual é a estimação por intervalo de confiança de 95% da 
ОРА para estudantes matriculados nas principais escolas de pós-graduação em Administração? 


10. A revista Playbill divulgou que a renda familiar anual média de seus leitores é igual a US$ 119.155 
(Playbill, dezembro de 2003). Suponha que essa estimativa da renda familiar anual média se baseie 
em uma amostra de 80 famílias; com base em estudos passados, sabe-se que o desvio padrão da popu- 
lação é o —US$ 30.000. 


a. Desenvolva uma estimação por intervalo de confiança de 90% para a média populacional. 

b. Estabeleça uma estimação por intervalo de confiança de 95% para a média populacional. 

c. Determine uma estimação por intervalo de confiança de 99% para a média populacional. 

d. Discuta o que acontece à amplitude do intervalo de confiança quando o grau de confiança é aumen- 
tado. Esse resultado parece razoável? Explique. 


8.2 MÉDIA DA POPULAÇÃO: с DESCONHECIDO 


Quando desenvolvemos a estimação por intervalo de uma média populacional, geralmente não temos uma 
boa estimativa do desvio padrão da população. Nesses casos, precisamos usar a mesma amostra para esti- 
mar и е с. Essa situação representa o caso que apresenta o desconhecido. Quando s é usado para estimar 
с, a margem de erro e a estimação por intervalo da média populacional baseiam-se em uma distribuição de 
probabilidade conhecida como distribuição £. Não obstante o desenvolvimento matemático da distribuição 
t basear-se na suposição de uma distribuição normal para a população da qual extraímos a amostra, as pes- 
quisas mostram que a distribuição г pode ser aplicada de maneira bem-sucedida em muitas situações em que 
a população se desvia significativamente da normal. Posteriormente, nesta seção, apresentaremos diretrizes 
para se usar a distribuição t se a população não estiver normalmente distribuída. 

A distribuição г é uma família de distribuições de probabilidade similares, com uma distribuição ѓ espe- 
cífica que depende de um parâmetro conhecido como grau de liberdade. A distribuição г com um grau 
de liberdade é única, como o é a distribuição t com dois graus de liberdade, com três graus de liberdade e 
assim por diante, À medida que o número de graus de liberdade aumenta, a diferença entre a distribuição 
te a distribuição normal padrão torna-se cada vez menor. A Figura 8.4 apresenta distribuições t com valo- 
res de 10 e 20 graus de liberdade e suas relações com a distribuição normal de probabilidade. Note que 
uma distribuição + com mais graus de liberdade exibe menos variabilidade e se assemelha mais estreita- 
mente à distribuição normal padrão. Note também que a média da distribuição t é zero. 


Figura 8.4 Comparação da distribuição normal padrão com distribuições t que têm 10 e 20 graus de liberdade 


Distribuição normal padrão 
Distribuição t (20 graus de liberdade) 


Distribuição t (10 graus de liberdade) 
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Colocamos um subscrito em : para indicar a área na cauda superior (upper tail) da distribuição t. Por 
exemplo, do mesmo modo que usamos po», para indicar o valor z que produz uma área de 0,025 na cauda 
superior de uma distribuição normal padrão, usaremos 1505 para indicar o valor t que produz uma área de 
0,025 na cauda superior de uma distribuição t. Em geral, usaremos a notação 1,» para representar um valor 
t com uma área de «/2 na cauda superior da distribuição t. Veja a Figura 8.5. 

A Tabela 8.2 é uma tabela da distribuição t. Cada linha da tabela corresponde a uma distribuição z dis- 
tinta, com os graus de liberdade correspondentes. Por exemplo, para uma distribuição t com 10 graus de 
liberdade, 49,025 = 2,228. Similarmente, para uma distribuição ? com 20 graus de liberdade, гооо = 2,086. 
À medida que os graus de liberdade continuam a crescer, 10005 Se aproxima de 20025 = 1,96. De fato, os 
valores z da distribuição normal padrão podem ser encontrados na linha de graus de liberdade infinitos 
(rotulada com о) da tabela de distribuições t. Se o grau de liberdade ultrapassar 100, a linha de graus de 
liberdade infinitos pode ser usada para aproximar o valor real t; em outras palavras, para mais de 100 graus 
de liberdade, o valor z normal padrão fornece uma boa aproximação ao valor /. A Tabela 2 do Apéndice В 
é uma tabela de distribuições t mais extensa, com todos os graus de liberdade, de 1 a 100, inclusive. 


Margem de Erro e a Estimação por Intervalo 


Na Seção 8.1, mostramos que a estimação por intervalo de uma média populacional para o caso de с 
conhecido é: 


Para calcular uma estimação por intervalo de р para o caso de o desconhecido, o desvio padrão o da amos- 
tra é usado para estimar o, e Za) é substituído pelo valor da distribuição г, tajp. A margem de erro é dada 
então por tap s/Vn. 


Figura 8.5 Distribuição t com a área, ou probabilidade, 2/2 na cauda superior 


0 ta/2 
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Tabela 8.2 Tabela de distribuição t de uma área a/2 na cauda superior. Exemplo: com 10 graus de 
liberdade, o valor t que produz uma área de 0,025 na cauda superior é tg 025 = 2,228 


0 tan 
Graus de Área na Cauda Superior 

Liberdade 0,20 0,10 0,05 0,025 0,01 0,005 
І 1,376 3,078 6314 12,706 31,82] 63,656 
2 1,061 ,886 2,920 4,303 6,965 9,925 
3 0,978 638 2,353 3,182 4,541 5,841 
4 0,941 ,533 2,132 2,776 3747 4,604 
5 0,920 476 2,015 2,571 3,365 4,032 
6 0,906 ,440 943 2,447 3,143 3,707 
7 0,896 415 895 2,365 2,998 3,499 
8 0,889 ‚397 ‚860 2,306 2,896 3,355 
9 0,883 ,383 833 2,262 2,821 3,250 
10 0,879 372 812 2,228 2,764 3,169 
Hoc 0,876 363 ‚796 2,201 2,718 3,106 
12 0,873 ‚356 ‚782 2,179 2,681 3,055 
13 0,870 ,350 71 2,160 2,650 3,012 
i4 0,868 345 ‚761 2,145 2,624 2,977 
15 0,866 ‚341 753 2,131 2,602 2,947 
l6 0,865 ‚337 ‚746 2,120 2,583 2,921 
17 0,863 ‚333 ‚740 2,110 2,567 2,898 
18 0,862 ‚330 734 2,10! 2,552 2,878 
19 0,861 ,328 ,729 2,093 2,539 2,861 
20 0,860 ‚325 ‚725 2,086 2,528 2,845 
21 0,859 ,323 1724 2,080 2,518 2,831 
22 0,858 ‚321 717 2,074 2,508 2,819 
23 0,858 319 „14 2,069 2,500 2,807 
24 0,857 ,318 TAE 2,064 2,492 2,797 
25 0,856 316 708 2,060 2,485 2,787 
26 0,856 315 ‚706 2,056 2,479 2,779 
27 0,855 314 ‚703 2,052 2,473 2,771 
28 0,855 313 ‚701 2,048 2,467 2,763 
29 0,854 311 ,699 2,045 2,462 2,756 
30 0,854 310 ‚697 2,042 2,457 2,750 
40 0,851 ‚303 ‚684 2,021 2,423 2,704 
50 0,849 ‚299 ‚676 2,009 2,403 2,678 
60 0,848 ‚296 ‚671 2,000 2,390 2,660 
80 0,846 ‚292 664 1,990 2,374 2,639 
100 0,845 ,290 1,660 1,984 2,364 2,626 
` 0,842 ‚282 645 1,960 2,326 2,576 


Nota: Uma tabela mais extensa é apresentada na Tabela 2 do Apéndice B. 


Capítulo 8 Estimação por Intervalo 


Com essa margem de erro, a expressão geral de uma estimação por intervalo de uma média populacio- 
nal quando o é desconhecido é a seguinte: 


ESTIMAÇÃO POR INTERVALO DE UMA MÉDIA POPULACIONAL: о DESCONHECIDO 


S 
TEn (8.2) 


em que s é o desvio padrão da amostra, (1 — æ) é o coeficiente de confiança e їо é o valor ғ que 
produz uma área igual a а/2 na cauda superior da distribuição +, com n — 1 graus de liberdade. 


A razão pela qual o número de graus de liberdade associado ao valor t na Equação 8.2 é n — 1 refere- 
se ao uso de s como uma estimativa do desvio padrão s da população. A expressão do desvio padrão da 
amostra é: 


xy 


n—1 


Os graus de liberdade referem-se ao número de informações independentes que entram no cálculo de 
Z(x, — XY . As n informações independentes envolvidas no cálculo de X(x; — x)? são as seguintes: x, — X, 
X)—X,.. 4 X4— X. Na Seção 3.2, indicamos que X(x; — X) = 0 para qualquer conjunto de dados. Desse 
modo, somente n — 1 dos x; — X valores são independentes; ou seja, se conhecermos л — 1 dos valores, o 
valor restante pode ser determinado de maneira exata, usando-se a condição de que a soma dos x, — X valo- 
res deve ser igual a 0. Assim, л — 1 é o número de graus de liberdade associados a Z(x, — X? e, portanto, 
o número de graus de liberdade da distribuição t na Equação 8.2. 

Para ilustrar o procedimento de estimação por intervalo para o caso de s desconhecido, consideraremos 
um estudo idealizado para estimar a média dos débitos de cartão de crédito da população de famílias norte- 
americanas. Uma amostra de n =85 famílias forneceu os saldos de cartões de crédito mostrados na Tabela 
8.3. Para essa situação, nenhuma estimativa anterior do desvio padrão s da população está disponível, 


Tabela 8.3 Saldos de cartões de crédito de uma amostra de 85 famílias 


9.619 5.994 3.344 7.888 7.58] 9.980 

5.364 4.652 13.627 3.091 12.545 8.718 

8.348 5.376 968 943 7.959 8.452 

7.348 5.998 4.714 8.762 2.563 4.935 
38! 7.530 4.334 1.407 6.787 5.938 

2.998 3.678 4911 6.644 5.071 5.266 
1.686 3.581 1.920 7.644 9.536 10.658 
1.962 5.625 3.780 11.169 4.459 3.910 

4.920 5.619 3.478 7.979 8.047 7.503 

5.047 9.032 6.185 3.258 8.083 1.582 

6.921 13.236 1.141 8.660 2.153 

5.759 4447 7.577 7.51! 8.003 

8.047 609 4.667 14.442 6.795 

3.924 414 ` 5.219 4447 5.915 

3.4/0 7.636 6.416 6.550 7.164 


Sendo assim, dados amostrais precisam ser utilizados para se estimar tanto a média populacional como 
o desvio padrão da população. Usando-se os dados da Tabela 8.3, calculamos a média amostral 
X = US$ 5.900 e o desvio padrão s da amostra = US$ 3.058. Com 95% de confiança e n — 1 = 84 graus 
de liberdade, a Tabela 2 do Apéndice B fornece (5555 —1,989. Agora, podemos usar a Equação 8.2 para 
calcular uma estimação por intervalo da média populacional: 


5.900 + 1,989 3:058 


v85 
5.900 + 660 
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A estimação por ponto da média populacional é US$ 5.900, a margem de erro é US$ 660 e o interva- 
lo de confiança de 95% é de 5.900 — 660 —US$ 5.240 a 5.900 + 660 = US$ 6.560. Desse modo, temos 
95% de confiança em que a média dos saldos de cartão de crédito da população de todas as famílias está 
entre US$ 5.240 e US$ 6.560. 

Os procedimentos usados pelo Minitab e pelo Excel para desenvolver intervalos de confiança para uma 
média populacional são descritos nos Apêndices 8.1 e 8.2. Em relação ao estudo de saldos de cartão de 
crédito das famílias norte-americanas, os resultados do procedimento de estimação por intervalo do 
Minitab são mostrados na Figura 8.6. A amostra de 85 famílias produz uma média amostral de estratos de 
cartão de crédito igual a US$ 5.900, desvio padrão de US$ 3.058 e (após o arredondamento) uma estima- 
tiva do erro padrão da média igual a US$ 332, e um intervalo de confiança de 95% igual а US$ 5.240 até 
US$ 6.560. 


Conselho Prático 


Se a população segue uma distribuição normal, o intervalo de confiança produzido pela Equação 8.2 é 
exato e pode ser usado para qualquer tamanho de amostra. Se a população não segue uma distribuição nor- 
mal, o intervalo de confiança produzido pela Equação 8.2 será aproximado. Nesse caso, a qualidade da 
aproximação depende tanto da distribuição da população como do tamanho da amostra. 

Na maioria das aplicações, um tamanho de amostra n = 30 é adequado quando se usa a Equação 8.2 
para desenvolver uma estimação por intervalo de uma média populacional. Entretanto, se a distribuição 
populacional for altamente inclinada ou se contiver pontos fora da curva, a maioria dos estatísticos reco- 
mendaria aumentar o tamanho da amostra para 50 ou mais. Se a população não está normalmente distri- 
buída, mas é mais ou menos simétrica, pode-se esperar que tamanhos de amostra tão pequenos quanto 15 
produzam bons intervalos de confiança aproximados. Com tamanhos de amostra menores, à Equação 8.2 
somente deve ser usada se o analista acreditar, ou estiver disposto a supor, que a distribuição populacional 
seja, no mínimo, aproximadamente normal. 


Como Usar uma Amostra Pequena 


No exemplo a seguir, desenvolvemos uma estimação por intervalo de uma média populacional quando o 
tamanho da amostra é pequeno. Conforme já observamos, um entendimento da distribuição populacional 
torna-se um fator importante ao decidir se o procedimento de estimação por intervalo produz resultados 
aceitáveis. 

A Scheer Industries está considerando usar um novo programa auxiliado por computador para trei- 
nar os empregados do setor de manutenção a fazer reparos nas máquinas. A fim de avaliar plenamente 
o programa, o diretor do departamento de manufatura solicitou uma estimativa do tempo médio popula- 
cional necessário para que os empregados do setor de manutenção concluam o treinamento auxiliado por 
computador. 


Figura 8.6 Intervalo de confiança do Minitab para a pesquisa de saldos de cartão de crédito 


Variable N Mean StDev SE Mean 95% CI 
Balance 85 5.900,00 3.058,00 331,69 (5.240,40, 6.559,60) 


Tabela 8.4 Tempo de treinamento, em dias, correspodente à amostra de 20 empregados 
da Scheer Industries 


52 59 54 42 
44 50 42 48 
55 54 60 55 
44 62 62 57 


45 46 43 56 
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Uma amostra de 20 empregados é selecionada, tendo cada empregado da amostra concluído o progra- 
ma de treinamento. Os dados sobre o tempo de treinamento, em dias, correspondentes aos 20 empregados, 
são mostrados na Tabela 8.4. Um histograma dos dados da amostra é apresentado na Figura 8.7. O que se 
pode dizer a respeito da distribuição da população com base nesse histograma? Primeiro, os dados da 
amostra não sustentam a conclusão de que a distribuição da população seja normal, ainda que não veja- 
mos nenhuma evidência de inflexão ou de pontos fora da curva. Portanto, usando as diretrizes apresenta- 
das na subseção anterior, concluímos que uma estimação por intervalo baseada na distribuição 1 parece 
aceitável para a amostra de 20 empregados, 

Continuamos a calcular a média amostral e o desvio padrão da amostra da seguinte maneira: 


Figura 8.7 Histograma dos tempos de treinamento da amostra da Scheer Industries 


6 


Freqüéncia 
w 


0 
40 45 50 55 60 65 


Tempo de Treinamento (em dias) 


Para um intervalo de confiança de 95%, usamos a Tabela 8.2 e n — 1 —19 graus de liberdade para obter 
19025 72,093. A Equação 8.2 fornece a estimação por intervalo da média populacional. 


6,84 
51,5 + zoe (525) 
v20 


51,5 + 32 


A estimação por ponto da média populacional é igual a 51,5 dias. A margem de erro é 3,2 dias e o inter- 
valo de confiança de 95% é de 51,5 — 3,2 = 48,3 dias a 51,5 + 3,2 = 54,7 dias. 

Usar um histograma dos dados da amostra para conhecer a distribuição de uma população nem sem- 
pre é conclusivo, mas, em muitos casos, constitui a única informação disponível. O histograma, juntamen- 
te com o julgamento da parte do analista, freqüentemente pode ser utilizado para decidir se a Equação 8.2 
pode ser usada para desenvolver a estimação por intervalo. 
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Resumo dos Procedimentos de Estimação 


Apresentamos duas abordagens ao desenvolvimento de uma estimação por intervalo de uma média popu- 
lacional. Para o caso de o conhecido, o o e a distribuição normal padrão são utilizados na Equação 8.1 
para calcular a margem de erro e para desenvolver a estimação por intervalo. Para o caso de o desconhe- 
cido, o desvio padrão s da amostra e a distribuição t são utilizados na Equação 8.2 para calcular a margem 
de erro e para desenvolver a estimação por intervalo. 

Um resumo dos procedimentos de estimação por intervalo referente aos dois casos é apresentado na 
Figura 8.8. Na maioria das aplicações, um tamanho de amostra n = 30 é adequado. Entretanto, se a popu- 
lação tiver uma distribuição normal ou aproximadamente normal, tamanhos de amostra menores poderão 
ser usados. Para o caso de o desconhecido, um tamanho de amostra п = 50 é recomendado quando se acre- 
dita que a distribuição populacional é altamente inclinada ou tem pontos fora da curva. 


Figura 8.8 Resumo dos procedimentos de estimação por intervalo de uma média populacional 


о desvio padrão о da “ 
população pode ser considerado, 
сопһесдо? 


[— Sim 


Useo desvio padráo 
5 da amostra para 
" х 53 
estimaro;  ' 


Caso em que o ` Caso em que 
é conhecido оё desconhecido 


NOTAS E COMENTÁRIOS 


1. Quando о é conhecido, a margem de erro, 2,2(0/ Vn), é fixa e é a mesma para todas as amostras de 
tamanho n. Quando о é desconhecido, a margem de erro, t,, pols/ Уп), varia de amostra a amostra. Essa 
variação ocorre porque o desvio padrão s da amostra varia, dependendo da amostra selecionada. Um 
valor grande para s produz uma margem de erro maior, ao passo que um valor pequeno para s produz 
uma margem de erro menor. 


2. O que acontece à estimação do intervalo de confiança quando a população é assimétrica? Considere uma 
população que tem uma inflexão à direita, com grandes valores de dados estendendo a distribuição à 
direita. Quando existe esse tipo de inflexão, a média amostral X e o desvio padrão s da amostra estão 
positivamente correlacionados. Valores maiores de o tendem a estar associados a valores maiores de X. 
Desse modo, quando x é maior que a média populacional, s tende a ser maior que o. Essa assimetria faz 
que a margem de erro, ta (s/ Vn), seja maior do que seria com o conhecido. O intervalo de confiança 
com a margem de erro maior tende a incluir a média populacional и mais freqüentemente que aquilo 
que ocorreria se o valor verdadeiro de o fosse usado. Mas quando X é menor que a média populacional, 
a correlação entre x e s faz que a margem de erro seja pequena. Nesse caso, o intervalo de confiança com 
a margem de erro menor tende a não incluir a média populacional mais frequentemente que aquilo que 
ocorreria se soubéssemos o valor de o e o usássemos. Por esse motivo, recomendamos usar tamanhos 
de amostra maiores quando se trata de distribuições populacionais altamente assimétricas. 
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Exercícios 


Métodos 


H. 


12. 


13. 


14. 


Aplicações 


15. 


16. 


17. 


Para uma distribuição t com 16 graus de liberdade, encontre a área, ou probabilidade, em cada região 
apresentada a seguir: 


a. À direita de 2,120. 

b. À esquerda de 1,337. 
c. À esquerda de –1,746. 
d. À direita de 2,583. 

e. Entre 2,120 e 2,120. 
f. Entre –1,746 e 1,746. 


Encontre o(s) valor(es) t em cada um dos seguintes casos: 


a. Área da cauda superior igual a 0,025, com 12 graus de liberdade. 

b. Área da cauda inferior igual a 0,05, com 50 graus de liberdade. 

c. Área da cauda superior igual a 0,01, com 30 graus de liberdade. 

d. Em que 90% da área se situa entre esses dois valores t com 25 graus de liberdade. 

e. Em que 95% da área se situa entre esses dois valores t com 45 graus de liberdade. (Veja na Tabela 2 


do Apéndice B uma tabela t mais extensa.) 
Os dados amostrais seguintes são de uma população normal: 10, 8, 12, 15, 13, 11, 6, 5. 


e? 


a. Qual é a estimação por ponto da média populacional? 

b. Qual é a estimação por ponto do desvio padrão da população? 

c. Com 95% de confiança, qual é a margem de erro da estimativa da média populacional? 
d. Qual é o intervalo de confiança de 95% da média populacional? 


AUTOTESTE 


Uma amostra aleatória simples com n =54 produziu uma média amostral igual a 22,5 e um desvio 
padrão da amostra igual a 4,4. (Veja na Tabela 2 do Apêndice B uma tabela t mais extensa.) 


а, Desenvolva um intervalo de confiança de 90% para a média populacional. 

b. Estabeleça um intervalo de confiança de 95% para a média populacional. 

c. Estipule um intervalo de confiança de 99% para a média populacional. 

d. O que acontece à margem de erro e ao intervalo de confiança quando o grau de confiança é 
aumentado? 


A equipe de vendas da Skillings Distributors apresenta semanalmente relatórios que relacionam os 
contatos feitos com clientes durante a semana. Uma amostra de 65 relatórios semanais exibiu uma 
média amostral de 19,5 contatos com clientes por semana. O desvio padrão da amostra foi 5,2. 
Forneça os intervalos de confiança de 90% e 95% correspondentes ao número médio da população 
de contatos semanais com clientes feitos pela equipe de vendas. 


AUTOTESTE 


O número médio de horas de vôo dos pilotos da Continental Airlines equivale a 49 horas por mês (The 
Wall Street Journal, 25 de fevereiro de 2003). Suponha que essa média tenha se baseado em tempos 
de vôo reais de uma amostra de 110 pilotos da Continental e que o desvio padrão da amostra tenha 
sido de 8,5 horas. 


a. Com 95% de confiança, qual é a margem de erro? 

b. Qual é a estimação por intervalo de confiança de 95% do tempo de vôo médio da população de 
pilotos? 

c. O número médio de horas de vôo dos pilotos da United Airlines equivale a 36 horas por mês. Use 
os resultados que obteve no item (b) para discutir as diferenças entre os tempos de vôo dos pilotos 
das duas empresas aéreas. O Wall Street Journal publicou que a United Airlines tem o custo de 
mão-de-obra mais elevado entre todas as empresas aéreas. A informação contida neste exercício 
oferece subsídios para compreendermos por que a United Airlines poderia esperar custos de mão- 
de-obra mais elevados? 

A International Air Transport Association consulta pessoas que viajam a negócios a fim de desenvol- 

ver avaliações da qualidade dos aeroportos internacionais. A avaliação máxima possível é 10. 

Suponha que uma amostra aleatória simples de 50 pessoas que viajam a negócios seja selecionada e 
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18. 


19. 


21. 


que cada viajante seja solicitado a fornecer uma avaliação do Aeroporto Internacional de Miami. As 
avaliações obtidas da amostra de 50 viajantes de negócios são as seguintes: 


6 4 6 8 7 7 6 3 3 8 10 4 8 
7 8 7 5 9 5 8 4 3 8 5 5 4 
4 4 8 4 5 6 2 5 9 9 8 4 8 
9 9 5 9 7 8 3 10 8 9 6 


Desenvolva uma estimação por intervalo de confiança de 95% da avaliação média da população para 
o aeroporto de Miami. - 


Trinta restaurantes de fast-food, incluindo o Wendy's, o McDonald's e o Burger King, foram freqüen- 
tados durante o verão de 2000 (The Cincinnatti Enquirer, 9 de julho de 2000). Durante cada visita, o 
cliente ia ao drive-through e pedia uma refeição básica, por exemplo, uma refeição “combo” ou um 
sanduíche, batatas fritas e um milk-shake. Foi registrado o tempo decorrido entre escolher a opção do 
cardápio e receber o pedido. Os tempos, em minutos, para as 30 visitas foram os seguintes: 


0,9 1,0 1,2 22 1,9 3,6 2,8 5,2 1,8 2,1 
6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5 
2,6 3,3 5,0 4,0 72 9,1 2,8 3,6 73 9,0 


a. Apresente uma estimação por ponto da média populacional de tempo gasto nos drive-throughs dos 
restaurantes de fast-food. 

b. Com 95% de confiança, qual é a margem de erro? 

c. Qual é a estimação por intervalo de confiança de 95% para a média populacional? 

d. Discuta a assimetria que possa estar presente nessa população. Qual sugestão você apresentaria em 
uma repetição desse estudo? 


Uma pesquisa da National Retail Foundation descobriu que as famílias pretendiam gastar uma média 
de US$ 649 durante o período de festas em dezembro (The Wall Street Journal, dezembro de 2002). 
Suponha que a pesquisa tenha incluído 600 famílias e que o desvio padrão da amostra tenha sido 
US$ 175. 


a. Com 95% de confiança, qual é a margem de erro? 

b. Qual é a estimação por intervalo de confiança de 95% para a média populacional? 

c. No ano anterior, a média populacional de gastos por família foi de US$ 632. Discuta a mudança 
nos gastos das festas de fim de ano no período de um ano. 

A American Association of Advertising Agencies publica dados sobre o tempo de propaganda, em 

minutos, durante meia hora nos programas do horário nobre. Os dados representativos, em minutos, 

de uma amostra de 20 programas do horário nobre nas principais redes de TV às 8h30 da noite são 

os seguintes: 


6,0 6,6 5,8 
70 6,3 6,2 
72 5,7 64 
70 65. 6,2 
6,0 6,5 72 
73 7,6 6,8 
60 ` 6,2 


Suponha uma população normal e forneça uma estimação por ponto e um intervalo de confiança de 
95% referentes ao námero médio de minutos de propaganda durante meia hora nos programas de tele- 
visáo no horário nobre, às 8h30 da noite. 


As reclamações sobre os preços crescentes dos medicamentos vendidos sob prescrição médica fize- 
ram que o Congresso dos Estados Unidos considerasse leis que obrigassem as empresas de produtos 
farmacêuticos a oferecer descontos na venda desses medicamentos a idosos que não contassem com 
os benefícios para aquisição de medicamentos. O House Government Reform Committee forneceu 


АМТ: Combo — Combinação (de vários itens). 
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dados sobre o custo de alguns dos medicamentos vendidos com receita mais amplamente usados 
(Newsweek, 8 de maio de 2000). Suponha que os dados apresentados a seguir sejam de uma amostra 
do custo de prescrição, em dólares, do Zocor, um medicamento usado para reduzir o colesterol. 


10 112 115 99 100 98 104 126 


Dada uma população normal, qual é a estimação por intervalo de confiança de 95% do custo médio 
populacional de uma receita médica de Zocor? р 

22. As primeiras semanas de 2004 foram boas рага о mercado de ações. Uma amostra de 25 grandes fun- 
dos de capitalização ilimitada (open-end funds) apresentou os seguintes retornos no intervalo de um 
ano, com vencimento em 16 de janeiro de 2004 (Barron's, 19 de janeiro de 2004). 


70 32 14 54 8,5 
2,5 2,5 1,9 5,4 1,6 
1,0 2,1 8,5 43 6,2 
1,5 1,2 2,7 3,8 20 
1,2 2,6 40 2,6 0,6 


a. Qual é a estimacáo por ponto do retorno médio populacional no intervalo de um апо, até o presen- 
te, para os fundos de capitalização ilimitada? 

b. Dado que a população tenha uma distribuição normal, desenvolva um intervalo de confiança de 
95% do retorno médio populacional no intervalo de um ano, até o presente, para os fundos de capi- 
talização ilimitada. 


8.3 COMO DETERMINAR O TAMANHO DA AMOSTRA 


Ao darmos o conselho prático nas duas seções anteriores, comentamos sobre o papel do tamanho da amos- 
tra para produzir bons intervalos de confiança aproximados quando a população não está normalmente dis- 
tribuída. Nesta seção, concentramo-nos em outro aspecto da questão do tamanho de amostra. Descrevemos 
como escolher um tamanho de amostra grande o suficiente para produzir uma margem de erro desejada. 
Para entender como esse processo é feito, retornemos ao caso em que o é conhecido, apresentado na Seção 
8.1. Usando a Equação 8.1, a estimação por intervalo é: 


za o 
= fanum 


A quantidade z, (0/Vn) é a margem de erro. Desse modo, observamos que Zap, o desvio padrão с da 
população e o tamanho п da amostra se conjugam para determinar a margem de erro. 

Assim que escolhermos um coeficiente de confiança, 1— о, Za pode ser determinado. Então, se tiver- 
mos um valor para о, podemos estipular o tamanho л de amostra necessário para fornecer qualquer mar- 
gem de erro desejada. O desenvolvimento da fórmula utilizada para calcular o tamanho n de amostra 
necessário é apresentado a seguir. 

Digamos que E = a margem de erro desejada: 


o 
Е = тзг 
2 Va 
Resolverido para Vn, temos: 
Zan 
Va = sh 
E 


Elevando ao quadrado ambos os termos dessa equação, obtemos a seguinte expressão do tamanho de 
amostra; 
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Se uma margem 
de erro desejada 
Tor escolhida antes 
da amostragem, os 
procedimentos 
desta secáo 
poderáo ser 
utilizados para 
determinar o 
tamanho de 
amostra necessário 
para satisfazer os 
requisitos da 
margem de erro. 


A Equação 8.3 
pode ser usada 
para fomecer uma 
boa recomendação 
de tamanho de 
amostra. 
Entretanto, o 
julgamento feito 
pelo analista deve 
ser usado para 
determinar se o 
tamanho de 
amostra final deve 
ser ajustado para 
um valor maior. 
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Deve-se 
especificar um 
valor planejado 
para o desvio 
padráo о da 
população a fim de 
que o tamanho da 
amostra possa ser 
determinado. 
Aqui, discutimos 
trés métodos para 
se obter o valor 
planejado de с. 


A Eguação 8.3 for- 
nece o tamanho 
mínimo de 
amostra necessário 
para satisfazer os 
requisitos da 
margem de erro 
desejada, Se o 
tamanho de 
amostra calculado 
não for um 
número inteiro, 
arredondá-lo para 
o valor inteiro 
seguinte produzirá 
uma margem de 
erro ligeiramente 
menor que o 
necessário. 
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TAMANHO DE AMOSTRA PARA ОМА Е$ТЇМАСАО POR INTERVALO DE ОМА MÉDIA 
POPULACIONAL 
uc o? 


E? (8.3) 


Esse tamanho de amostra fornece a margem de erro desejada, ao nível de confiança escolhido. 

Na Equação 8.3, E é a margem de erro que o usuário está disposto a aceitar e o valor de Zap decorre 
diretamente do grau de confiança a ser usado no desenvolvimento da estimação por intervalo. Embora a 
preferência do usuário deva ser levada em consideração, 95% de confiança é o valor usado com maior fre- 
qüéncia (2005 = 1,96). 

Por fim, o uso da Equação 8.3 necessita de um valor para o desvio padrão o da população. Entretanto, 
mesmo que о seja desconhecido, podemos utilizar a Equação 8.3 desde que tenhamos um valor prelimi- 
nar, ou valor planejado, para т. Na prática, um dos procedimentos seguintes pode ser escolhido. 


1. Use a estimativa do desvio padrão da população, calculada a partir de dados de estudos anteriores, 
como o valor planejado para с. 


2. Use um estudo piloto para selecionar uma amostra preliminar. O desvio padrão amostral da amos- 
tra preliminar pode ser usado como o valor planejado para о. 


3. Use o julgamento ou o “melhor palpite” para o valor de o. Por exemplo, poderíamos começar esti- 
mando os maiores e os menores valores de dados da população. A diferença entre os maiores e os 
menores valores fornece uma estimativa da amplitude dos dados. Finalmente, muitas vezes a ampli- 
tude dividida por 4 é sugerida como uma aproximação tosca do desvio padrão e, assim, um valor 
planejado aceitável para o. 


Vamos demonstrar o uso da Equação 8.3 para determinar o tamanho da amostra, considerando o 
seguinte exemplo. Um estudo anterior que investigou o custo do aluguel de automóveis nos Estados 
Unidos revelou que o custo médio para alugar um carro de porte médio era de aproximadamente US$ 55 
por dia. Suponha que a organização que realizou esse estudo queira realizar um novo estudo a fim de esti- 
mar à média populacional do custo diário de aluguel de automóveis de tamanho médio nos Estados 
Unidos. Ao projetar o novo estudo, o diretor do projeto especifica que a média populacional do custo de 
aluguel deve ser estimada com uma margem de erro de US$ 2 e um grau de confiança de 95%. 

O diretor do projeto especificou uma margem de erro desejada de E =2, e o grau de confiança de 95% 
indica 2005 =1,96. Desse modo, precisamos somente de um valor planejado para o desvio padrão o da popu- 
lação para calcular o tamanho de amostra necessário. Nesse ponto, o analista revisou os dados amostrais do 
estudo anterior e descobriu que o desvio padrão amostral do custo diário de aluguel era de US$ 9,65. Usando 
9,65 como o valor planejado de с, obtemos: 


(50^ 969,65? 
Е? 22 


89,43 


Assim, о tamanho де amostra do novo estudo precisa ser, no mínimo, де 89,43 aluguéis de automóveis de 
tamanho médio para satisfazer a exigência de margem de erro igual a US$ 2 determinada pelo diretor do pro- 
jeto. Nos casos em que o л calculado não for um número inteiro, nós о arredondaremos para o valor inteiro 
seguinte; portanto, o tamanho de amostra recomendado é de 90 aluguéis de automóveis de tamanho médio. 


Exercícios 


Métodos 


23. Qual tamanho de amostra deve ser selecionado para produzir um intervalo de confiança de 95% com 
uma margem de erro igual a 10? Suponha que o desvio padrão da população seja 40. 
24. Estima-se que a amplitude de um conjunto de dados seja 36. 
a. Qual é o valor planejado do desvio padrão da população? 
b. Com um grau de confiança de 95%, qual tamanho de amostra forneceria uma margem de erro 
igual a 3? 
c. Com um grau de confiança de 95%, qual tamanho de amostra forneceria uma margem de erro 
igual a 2? 
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Aplicações 


25. 


26. 


27. 


28. 


29. 


30. 


Consulte о exemplo da Scheer Industries na Seção 8.2. Use 6,82 dias como valor planejado para о 

desvio padrão da população. 

a. Supondo um grau de confiança de 95%, qual tamanho de amostra seria necessário para se obter 
uma margem de erro de 1,5 dia? 

b. Se a proposição da precisão fosse feita com 90% de confiança, qual tamanho de amostra seria 
necessário para se obter uma margem de erro de 2 dias? 


A revista Bride's divulgou que o custo médio de um casamento é de US$ 19 mil (USA Today, 17 de 
abril de 2000). Suponha que o desvio médio da população seja US$ 9.400. A Bride's planeja usar uma 
pesquisa anual para monitorar o custo de um casamento. Use 95% de confiança. 


a. Qual é o tamanho de amostra recomendado se a margem de erro desejada for de US$ 1.0007 
b. Qual é o tamanho de amostra recomendado se a margem de erro desejada for de US$ 500? 
c. Qual é o tamanho de amostra recomendado se a margem de erro desejada for de US$ 200? 


Geralmente se espera que os salários anuais inicias dos diplomados em cursos de pós-graduação em 
Administração estejam entre US$ 30 mil e US$ 45 mil. Suponha que se deseje uma estimação por 
intervalo de confiança de 95% da média populacional dos salários anuais iniciais. Qual é o valor pla- 
nejado para o desvio padrão da população? Qual tamanho de amostra deve ser tomado se a margem 
de erro desejada for de: 


a. US$ 500? 
b. US$ 200? 
c. US$ 100? 
d. Você recomendaria tentar obter a margem de erro de US$ 100? Explique. 


A Smith Travel Research fornece informações sobre o custo de pernoites em quartos de hotel em todo 
o território dos Estados Unidos (USA Today, 8 de julho de 2002). Use US$ 2 como a margem de erro 
desejada e US$ 22,50 como valor planejado para o desvio padrão da população para encontrar o tama- 
nho de amostra recomendado nos itens (a), (b) e (c). 


a. Uma estimação por intervalo de confiança de 90% do custo médio populacional dos quartos de 
hotel, 
b. Uma estimação por intervalo de confiança de 95% do custo médio populacional dos quartos de 
hotel. 
c. Uma estimação por intervalo de confiança de 99% do custo médio populacional dos quartos de 
“hotel. 
d. Quando a margem de erro é fixa, o que acontece ao tamanho da amostra quando o grau de confian- 
ça é aumentado? Você recomendaria que a Smith Travel Research utilizasse um grau de confiança 
de 99%? Discuta. 


O tempo que os habitantes das 15 maiores cidades dos Estados Unidos gastam para ir de casa ao tra- 
balho foi divulgado no 2003 Information Please Almanac. Suponha que uma amostra aleatória sim- 
ples preliminar dos habitantes de São Francisco seja usada para desenvolver um valor planejado de 
6,25 minutos para o desvio padrão da população. 

a. Se quisermos estimar o tempo médio populacional das viagens ао trabalho para os habitantes de 
São Francisco com uma margem de erro de 2 minutos, qual tamanho de amostra deve ser usado? 
Suponha 95% de confiança. 

b. Se quisermos estimar o tempo médio populacional das viagens ao trabalho para os habitantes de 
São Francisco com uma margem de erro de 1 minuto, qual tamanho de amostra deve ser usado? 
Suponha 95% de confiança. 


Durante o primeiro trimestre de 2003, a relação preço/rendimentos (P/R) das ações listadas na Bolsa 
de Valores de Nova York geralmente variou de 5 a 60 (The Wall Street Journal, 7 de março de 2003). 
Suponha que queiramos estimar a média populacional da relação preço/rendimentos de todas as ações 
listadas na Bolsa. Quantas ações devem ser incluídas se quisermos uma margem de erro igual a 3? 
Use 95% de confiança. 
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8.4 PROPORÇÃO DA POPULAÇÃO 


Na introdução deste capítulo, dissemos que a forma geral de uma estimação por intervalo de uma propor- 
ção populacional p é: 


p + Margem de erro 


A distribuição amostral de p desempenha papel fundamental no cálculo da margem de erro dessa esti- 
mação por intervalo. ; 

No Capítulo 7, dissemos que a distribuição amostral de p pode ser aproximada por meio de uma dis- 
tribuição normal quando np = 5 e n (1 — p) = 5. A Figura 8.9 mostra a aproximação normal da distribui- 
ção amostral de р. 


Figura 8.9 Aproximação normal à distribuição amostral de p 


Distribuição amostral 
dep 


A média da distribuição amostral de р é a proporção p da população, e o desvio padrão de р é: 


1 — 
o; = (ia (8.4) 


Uma vez que a distribuição amostral де p está normalmente distribuída, se escolhermos 2,20; como a mar- 
gem de erro em uma estimação por intervalo da proporção populacional, saberemos que 100(1 — a)% dos 
intervalos gerados conterão a proporção populacional verdadeira. Mas о, não pode ser usado diretamente 
Quando se no cálculo da margem de erro porque p náo será conhecido; p é aquilo que estamos tentando estimar. 
desemolvam Então, p é substituído por p, e a margem de erro de uma estimação por intervalo de uma proporção popu- 
intervalos de lacional é dada por: 
confiança para 


proporções, a = à pa mM p 
quantidade агрет de erro = z, NIE o 
Zan NEU Бїт PV n (8.5) 


fomece a margem 
de erro. 


Com essa margem de erro, a expressão geral da estimação por intervalo de uma proporção populacio- 
nal é a seguinte: 
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ESTIMAÇÃO POR INTERVALO DE UMA PROPORÇÃO POPULACIONAL 


pu -P (8.6) 


Dg 


Em que 1 - a é o coeficiente de confiança e Zap é o valor de z que produz uma área igual a a/2 na 
cauda superior da distribuição normal padrão. 


O exemplo a seguir ilustra o cálculo da margem de erro e a estimação por intervalo de uma proporção 
populacional. Foi realizada uma pesquisa nacional de 900 jogadoras de golfe para saber como as mulhe- 
res viam o tratamento que lhes era dado nos cursos de golfe nos Estados Unidos. A pesquisa revelou que 
396 das golfistas estavam satisfeitas com a disponibilidade de tee times. Desse modo, a estimação por 
ponto da proporção da população de mulheres golfistas que estão satisfeitas com a disponibilidade de tee 
times é de 396/900 = 0,44. Usando a Equação 8.6 e um grau de confiança de 95%, 


_ |Б — p 
Pun n 


0,44(1— 0,44) 


0,44 + 1, 
' 196 900 


0,44 + 0,0324 


Assim, a margem de erro é 0,0324 e a estimação por intervalo de confiança de 95% da proporção popula- 
cional é de 0,4076 a 0,4724. Utilizando porcentagens, os resultados da pesquisa nos possibilitam afirmar 
com 95% de confiança que entre 40,76% e 47,24% de todas as mulheres golfistas estão satisfeitas com a 
disponibilidade de tee times. 


Como Determinar o Tamanho da Amostra 


Consideremos a questão de qual deve ser o tamanho da amostra para obtermos uma estimativa da propor- 
ção populacional a um grau de confiança específico. O fundamento lógico para a determinação do tama- 
nho de amostra para desenvolvermos estimações por intervalo de p é análogo ao fundamento lógico utili- 
zado na Seção 8.3 para estabelecermos o tamanho de amostra para estimar uma média populacional. 

Anteriormente, nesta seção, dissemos que a margem de erro associada a uma estimação por intervalo 
de uma proporção populacional é z,,2VP(l — p) /n. A margem de erro baseia-se no valor de Zaf2» na pro- 
porção p da amostra e no tamanho n da amostra, Tamanhos de amostra maiores produzem uma margem 
de erro menor e uma precisão melhor. 

Digamos que E denote a margem de erro desejada. 


PA — р) 
Е = zan n 


Isolar n nessa equação produz uma fórmula do tamanho de amostra que fornecerá uma margem de erro de 
tamanho E. 


(Zan PPC — p) 
E 2 


Observe, entretanto, que não podemos usar essa fórmula para calcular o tamanho de amostra que pro- 
duzirá a margem de erro desejada, porque p somente será conhecido depois de selecionarmos a amostra. 
O que precisamos, então, é de um valor planejado para p que possa ser usado para fazermos o cálculo. 
Usando p* para denotar o valor planejado de p, podemos utilizar a fórmula apresentada a seguir para cal- 
cular o tamanho de amostra que produzirá uma margem de erro de tamanho £. 


5 NT: Tee time (“hora de saída”) – Momento em que há um tee (ponto a partir do qual se bate a primeira tacada em cada buraco) dis- 
ponível (Golfe). 
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TAMANHO DA AMOSTRA PARA UMA ESTIMAÇÃO POR INTERVALO DE UMA 
PROPORÇÃO POPULACIONAL 


2 E 
п = Ca) ^ p*) (&7) 


Na prática, o valor planejado p* pode ser escolhido por meio de um dos seguintes procedimentos. 


1. Use a proporção amostral de uma amostra anterior das mesmas unidades ou de unidades similares. 


2. Use um estudo piloto para selecionar uma amostra preliminar. A proporção amostral dessa amos- 
tra pode ser usada como o valor planejado, p*. 


3. Use o julgamento ou o “melhor palpite” para o valor de p*. 
4. Se nenhuma das alternativas anteriores for apropriada, use o valor planejado de p* =50. 


Retornemos à pesquisa das mulheres golfistas e vamos supor que a empresa esteja interessada em rea- 
lizar uma nova pesquisa para estimar a proporção atual da população de mulheres praticantes do golfe que 
estão satisfeitas com a disponibilidade de tee times. Qual deve ser o tamanho da amostra se o diretor da 
pesquisa quiser estimar a proporção populacional com uma margem de erro de 0,025, com 95% de con- 
fiança? Com E = 0,025 е2, = 1,96, precisamos de um valor planejado p* para responder à questão do 
tamanho da amostra. Utilizando o resultado da pesquisa anterior, em que 5 = 0,44 como o valor planeja- 
do p*, a Equação 8.7 mostra que: 


Con PP — p*) _ (1,960,440 — 0,44) 
E? (0,025)? 


1.514,5 


Tabela 8.5 Alguns valores possíveis para p*(| — p*) 


p* HI —р*) 
0,10 (0,10X0,90) = 0,09 
0,30 (0.30X0,70) = 0,21 
0,40 (0,40X0,60) = 0,24 
0,50 (0,50X0,50) = 0,25 -«&—— —- O maior valor para p*(1 — p*) 
0,60 (0,60X0,40) = 0,24 
0,70 (0,70%0,30) = 0,21 
0,90 (0.900,10) = 0,09 


Desse modo, o tamanho da amostra deve ter, no mínimo, 1.514,5 mulheres golfistas para que o requisito de 
margem de erro seja satisfeito. O arredondamento para o valor inteiro seguinte indica que uma amostra de 
1.515 mulheres golfistas é recomendada para que o requisito de margem de erro seja cumprido. 

A quarta alternativa sugerida para se escolher um valor planejado de p* é usar p* = 0,50. Esse valor de 
p* frequentemente é usado quando não há nenhuma outra informação disponível. Para entender o porquê, 
observe que o numerador da Equação 8.7 mostra que o tamanho de amostra é proporcional à quantidade 
p" (1 — p*). Um valor maior para a quantidade p*(1 ~ p*) resultará em um tamanho de amostra maior. А 
Tabela 8.5 apresenta alguns valores possíveis para p*(1 — p*). Note que o maior valor de p*(1 — p*) ocorre 
quando p* = 0,50. Assim, no caso de qualquer incerteza a respeito de um valor planejado apropriado, sabe- 
mos que p* — 0,50 apresentará a recomendação do maior tamanho de amostra. De fato, sentimo-nos segu- 
ros em recomendar o maior tamanho de amostra possível. Se a proporção amostral vier a ser diferente do 
valor planejado de 0,50, a margem de erro será menor que o previsto. Logo, ao usar p* = 0,50, garantimos 
que o tamanho da amostra será suficiente para obtermos a margem de erro desejada, 

No exemplo das mulheres golfistas, um valor planejado de p* = 0,50 teria produzido o seguinte tama- 
nho de amostra: 


Can p*( — p*) (1,96)0,50X1 — 0,50) 
E? (0,025)? 


1.536,6 


Desse modo, um tamanho de amostra ligeiramente maior, de 1.537 mulheres golfistas, seria recomendado. 
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NOTAS E COMENTÁRIOS 


A margem de erro desejada para estimar uma proporção populacional é quase sempre 0,10 ou menos. 
Em pesquisas de opinião pública realizadas por organizações como o Instituto Gallup e a Harris, uma 
margem de erro de 0,03 ou 0,04 é comum. Com essas margens de erro, a Equação 8.7 quase sempre 
fornecerá um tamanho de amostra que é grande o bastante para satisfazer à condição essencial de 
np > 5 е п(1 — p) = 5 para que se possa usar uma distribuição normal como uma aproximação à dis- 
tribuição amostral de x. 


Exercícios 


Métodos 


31. 


32. 


33. 


34, 


Uma amostra aleatória simples de 400 pessoas apresentou 100 respostas Sim. 

a. Qual é a estimação por ponto da proporção da população que apresentaria respostas Sim? 
b. Qual é sua estimativa do erro padrão da população, 0,? 

c. Calcule o intervalo de confiança de 95% para a proporção populacional? 

Uma amostra aleatória simples de 800 elementos gera uma proporção amostral p = 0,70. 


a. Forneca um intervalo de confiança de 90% para a proporção populacional. 

b. Providencie um intervalo de confiança de 95% para a proporção populacional. 

Em uma pesquisa, o valor planejado da proporção populacional é p* = 0,35. Qual tamanho de amostra 
deve ser tomado para produzir um intervalo de confiança de 95% com uma margem de erro de 0,05? 
Com 95% de confiança, qual tamanho de amostra deve ser tomado para se obter uma margem de erro 


de 0,03 para a estimativa de uma proporção populacional? Suponha que não haja dados históricos dis- 
poníveis para que se possa desenvolver um valor planejado para p*. 


Aplicações 


35. 


36. 


37, 


Uma pesquisa de 611 funcionários de escritório investigou seus hábitos de atendimento ao telefone, 

incluindo a frequência com que cada funcionário de escritório era capaz de atender às chamadas tele- 

fônicas e com qual freqüéncia as chamadas telefônicas chegavam diretamente ao correio de voz (USA 

Today, 21 de abril de 2002). Ao todo, 281 funcionários de escritório indicaram que nunca precisavam 

do correio de voz e que eram capazes de responder a cada chamada telefônica. 

a. Qual é a estimação por ponto da proporção da população de funcionários de escritório que são 
capazes de atender a cada chamada telefônica? 

b. Com 90% de confiança, qual é a margem de erro? 

c. Qual é o intervalo de confiança de 90% da proporção da população de funcionários de escritório 
que são capazes de atender a cada chamada telefônica? 


Uma pesquisa realizada pela Society for Human Resource Management perguntou a 346 pessoas que 
procuravam emprego por que os empregados trocam de emprego tão fregiientemente (The Wall Street 
Journal, 28 de março de 2000). A resposta mais escolhida (152 vezes) foi “melhor remuneração em 
outro lugar”. 


a. Qual é a estimação por ponto da proporção de pessoas que procuram emprego que escolheriam 
“melhor remuneração em outro lugar" como a razão para trocar de emprego? 
b. Qual é a estimação por intervalo de confiança de 95% da proporção populacional? 


A Towers Perrin, uma firma de consultoria em recursos humanos de Nova York, realizou uma pesqui- 
sa de 1.100 empregados de empresas de médio e grande portes para determinar qual seria o nível de 
insatisfação dos empregados com seus empregos (The Wall Street Journal, 29 de janeiro de 2003). Ao 
todo, 473 empregados indicaram que estavam fortemente insatisfeitos com suas experiências de tra- 
balho atuais. 


$ NT: Louis Harris & Associates. 
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38. 


40. 


41. 


42. 


a. Qual é a estimação por ponto da proporção da população de empregados que estão fortemente insa- 
tisfeitos com suas experiências de trabalho atuais? 

b. Com 95% de confiança, qual é a margem de erro? 

c. Qual é o intervalo de confiança de 95% da proporção populacional de empregados que estão for- 
temente insatisfeitos com suas experiências de trabalho atuais? 

d. A Towers Perrin estima que custa aos empregadores 1/3 do salário anual de um єшрїерїдө que tra- 
balha por hora para encontrar um substituto, e até 1,5 vezes o salário anual para encontrar um subs- 
tituto para um empregado que recebe altos salários. Qual mensagem essa pesquisa transmite aos 
empregadores? 

Dados sobre o perfil do público coletados no site da ESPN SportsZone mostraram que 26% dos usuá- 

rios eram mulheres (USA Today, 21 de janeiro de 1998). Suponha que essa porcentagem tenha se 

baseado em uma amostra de 400 usuários. 


a. Com 95% de confiança, qual é a margem de erro associada à proporção estimada de usuários que 
são mulheres? 

b. Qual é o intervalo de 95% de confiança relativo à proporção populacional de usuários do site da 
ESPN SportsZone que são mulheres? 

c. Qual tamanho de amostra deve ser tomado se a margem de erro desejada for igual a 0,03? 


Uma pesquisa realizada pelo Employee Benefit Research Institute explorou as razões pelas quais os 
empregadores dos pequenos negócios oferecem um plano de aposentadoria aos seus empregados 
(USA Today, 4 de abril de 2000). A razão “vantagem competitiva no recrutamento e retenção de fun- 
cionários” foi antecipada 33% das vezes. 


a. Qual tamanho de amostra deve ser recomendado se a meta de uma pesquisa for estimar a propor- 
ção de empregadores de pequenos negócios que oferecem um plano de aposentadoria principal- 
mente em função da “vantagem competitiva no recrutamento e retenção de funcionários”, com uma 
margem de erro de 0,03? Use um grau de confiança de 95%. 

b. Repita o item (a) utilizando 99% de confiança. 


O recorde de 61 home runs? do beisebol profissional em uma temporada foi mantido durante 37 anos 
por Roger Maris, dos New York Yankees. Entretanto, entre 1998 e 2001, três jogadores — Mark 
McGwire, Sammy Sosa e Harry Bonds – quebraram as marcas obtidas por Maris, e Bonds mantém о 
recorde atual de 73 home runs em uma única temporada. Considerando a quebra do recorde de home 
runs mantido durante tanto tempo, e com muitos outros recordes absurdos sendo fixados, surgiu a 
suspeita de que os jogadores de beisebol poderiam estar usando esteróides — as drogas ilegais para 
aumentar a musculatura. Uma pesquisa de opinião promovida conjuntamente pelo jornal USA Today, 
CNN e Instituto Gallup revelou que 86% dos torcedores de beisebol acham que os jogadores profis- 
sionais de beisebol deveriam ser submetidos a testes de detecção de esteróides (USA Today, 8 de julho 
de 2002). Se 650 torcedores de beisebol fossem incluídos na amostra, calcule qual seria a margem de 
erro e o intervalo de confiança de 95% dá proporção populacional de torcedores de beisebol que 
acham que os jogadores profissionais de beisebol deveriam ser submetidos a testes de detecção de 
esteróides. 


Uma pesquisa do comércio varejista realizada pela American Express revelou que 16% dos consumi- 
dores norte-americanos usaram a internet para comprar presentes nas festas de fim de ano (USA 
Today, 18 de janeiro de 2000). Se 1.285 consumidores tiverem participado da pesquisa, qual é a mar- 
gem de erro e qual é a estimação por intervalo da proporção populacional de consumidores que usam 
a internet para comprar presentes? Use 95% de confiança. 

Uma pesquisa realizada conjuntamente pelo jornal USA Today, CNN e Instituto Gallup para a cam- 
panha à Presidência da República tomou como amostra 491 eleitores em potencial em junho (USA 
Today, 9 de junho de 2000). Uma das principais finalidades da pesquisa era obter uma estimativa da 
proporção dos eleitores em potencial que eram favoráveis a cada candidato. Suponha um valor pla- 
nejado de p* = 0,50 e um grau de confiança de 95%. 


7 NT: Home run — Jogada máxima de ataque, em que a bola é rebatida para fora do campo de jogo e permite ao rebatedor percorrer 
todas as bases e marcar um гип (pontuação por percorrer de maneira bem-sucedida todas as quatro bases) (Beisebol). 


Capítulo 8 Estimação por Intervalo 


a. Para p* —0,50, qual foi a margem de erro planejada para a pesquisa realizada em junho? 

b. Quanto mais se aproximam as eleições de novembro, maior precisão e menores margens de erro 
são desejadas. Suponha que as seguintes margens de erro sejam solicitadas para as pesquisas a 
serem realizadas durante a campanha à Presidência da República. Calcule o tamanho de amostra 
recomendado para cada pesquisa. 


Pesquisa Margem de Erro 
Setembro 0,04 
Outubro 0,03 
Início de novembro 0,02 
Véspera das eleições 0,01 


43. Uma pesquisa realizada pela Phoenix Wealth Management/Harris Interactive de 1.500 indivíduos que 
possuem riqueza líquida de US$ 1 milhão ou mais forneceu uma série de estatísticas sobre as pessoas 
ricas (Business Week, 22 de setembro de 2003). Os três anos anteriores foram ruins para o mercado 
de ações, e isso motivou algumas das perguntas que foram feitas. 


a. À pesquisa revelou que 53% dos entrevistados perderam 25% ou mais do valor de suas carteiras de 
ações ao longo dos últimos três anos. Desenvolva um intervalo de confiança de 95% da proporção 
de pessoas ricas que perderam 25% ou mais do valor de suas carteiras de ações ao longo dos últi- 
mos três anos. 

b. A pesquisa revelou que 31% dos entrevistados achavam que precisavam poupar mais para a apo- 
sentadoria, para compensar aquilo que haviam perdido. Desenvolva um intervalo de confiança de 
95% relativo à proporção populacional, 

с. Cinco por cento dos entrevistados doaram US$ 25 mil ou mais para obras assistenciais ao longo do 
ano anterior. Desenvolva um intervalo de confiança de 95% relativo à proporção de quem doou 
US$ 25 mil ou mais para obras assistenciais. 

d. Compare a margem de erro das estimações por intervalo dos itens (a), (b) e (c). Como a margem 
de erro está relacionada a p? Quando a mesma amostra é usada para estimar uma série de propor- 
ções, qual das proporções deve ser usada para se escolher o valor planejado p*? Por que você acha 
que p* =0,50 frequentemente é usado nesses casos? 


Resumo 


Neste capítulo, apresentamos métodos para o desenvolvimento de estimações por intervalo de uma média 
da população e de uma proporção da população. Um estimador por ponto pode produzir ou não produzir 
uma boa estimativa de um parâmetro populacional. O uso de uma estimação por intervalo fornece uma 
medida da precisão de uma estimativa. 

Tanto a estimação por intervalo da média da população como a proporção populacional têm a seguin- 
te forma: estimação por ponto + margem de erro. 

Apresentamos as estimações por intervalo de uma média populacional relativas a dois casos. No caso 
em que o é conhecido, dados históricos ou outras informações são utilizados para desenvolver uma esti- 
mativa de o antes de se extrair a amostra. Então, a análise dos novos dados amostrais é realizada basean- 
do-se no pressuposto де que o é conhecido. No caso em que о é desconhecido, os dados amostrais são 
utilizados para estimar tanto a média populacional como o desvio padrão da população. A escolha final de 
qual procedimento de estimação por intervalo se deve usar depende do entendimento do analista a respei- 
to de qual método produz a melhor estimativa de o. 

No caso em que s é conhecido, o procedimento de estimação por intervalo baseia-se no valor pressu- 
posto de с e no uso da distribuição normal padrão. No caso em que o é desconhecido, o procedimento de 
estimação por intervalo usa o desvio padrão s da amostra e a distribuição г, Em ambos os casos, a quali- 
dade das estimações por intervalo obtidas depende da distribuição da população e do tamanho da amostra. 
Se a população estiver normalmente distribuída, as estimações por intervalo serão exatas em ambos os 
casos, até mesmo para tamanhos de amostra pequenos. Se a população não estiver normalmente distribuí- 
da, as estimações por intervalo serão aproximadas. Tamanhos de amostra maiores produzirão melhores 
aproximações, mas, quanto mais assimétrica for a população, maior deve ser o tamanho da amostra para 
se obter uma boa aproximação. Um conselho prático a respeito do tamanho de amostra necessário para se 
obter uma boa aproximação foi incluído nas Seções 8.1 e 8.2. Na maioria dos casos, um tamanho de amos- 
tra igual a 30 ou mais produzirá bons intervalos de confiança aproximados. 
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A forma geral da estimação por intervalo de uma proporção populacional é р + margem de erro. Na 
prática, os tamanhos de amostra usados nas estimações por intervalo de uma proporção populacional geral- 
mente são grandes. Desse modo, um procedimento de estimação por intervalo baseia-se na distribuição 
normal padrão. 

Uma margem de erro desejada, muitas vezes, é especificada antes de se desenvolver um plano de amos- 
tragem. Mostramos como escolher um tamanho de amostra grande o bastante para produzir a precisão 
desejada, 


Glossário 


Estimativa do intervalo Uma estimativa de um parâmetro da população que fornece um intervalo no qual 
se acredita que está o valor do parâmetro. Em relação às estimações por intervalo deste capítulo, ele 
tem a forma: estimação por ponto + margem de erro. 

Margem de erro O valor + que é-adicionado e subtraído de uma estimação por ponto a fim de se desen- 
volver uma estimação por intervalo de um parâmetro populacional. 

9 conhecido O caso em que dados históricos ou outras informações produzem um bom valor para o des- 
vio padrão da população antes de se tomar a amostra. O procedimento de estimação por intervalo usa 
esse valor conhecido de с para calcular a margem de erro. 

ø desconhecido O caso mais comum, em que não existe nenhuma base boa, para se estimar o desvio 
padrão da população antes de se tomar a amostra. O procedimento de estimação por intervalo usa o 
desvio padrão o da amostra para calcular a margem de erro. 

Grau de confiança A confiança associada a uma estimação por intervalo. Por exemplo, se um procedi- 
mento de estimação por intervalo produz intervalos de maneira que 95% deles incluem o parâmetro 
populacional, diz-se que a estimação por intervalo foi construída com um grau de confiança de 95%. 

Coeficiente de confiança O grau de confiança expresso como um valor decimal. Por exemplo, 0,95 é o 
coeficiente de confiança de um grau de confiança de 95%. 

Intervalo de confiança Outro nome para estimação por intervalo. 

Distribuição t Uma família de distribuições probabilísticas que podem ser usadas para desenvolver uma 
estimação por intervalo de uma média populacional quando quer que o desvio padrão o da população 
seja desconhecido e seja estimado pelo desvio padrão s da amostra. 

Graus de liberdade Um parâmetro da distribuição ғ. Quando a distribuição ғ é usada no cálculo de uma 
estimação por intervalo de uma média populacional, a distribuição + apropriada tem п — 1 graus de 
liberdade, em que n é o tamanho da amostra aleatória simples. 


Fórmulas-Chave 
Estimação por Intervalo de uma Média da População: Caso em que o é Conhecido 

_ с 

X tna v (8.1) 
Estimação por Intervalo de uma Média da População: Caso em que с é Desconhecido 

Е M 

TE tn Vu (8.2) 
Tamanho da Amostra para uma Estimação por Intervalo de uma Média da População 

(z, Yo? 
n- T (8.3) 


Estimação por Intervalo de uma Proporção da População 


do» 
Р + Zan ү 2 (8.6) 


Tamanho da Amostra para uma Estimação por Intervalo de uma Proporção da População 
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44. 


45. 


46. 


47. 


Uma pesquisa feita com pessoas que compram sua primeira casa revelou que a média da renda fami- 
liar anual era de US$ 50 mil (CNBC.com, 11 de julho de 2000). Suponha que a pesquisa tenha usado 
uma amostra de 400 pessoas e suponha que o desvio padrão da população seja US$ 20.500. 


a, Com 95% de confiança, qual é a margem de erro desse estudo? 
b. Qual é o intervalo de confiança de 95% relativo à média da renda familiar anual da população de 
pessoas que compram sua primeira casa? 


Uma pesquisa realizada pela American Automobile Association mostrou que uma família de quatro 
pessoas gasta em média US$ 215,60 por dia enquanto está em férias. Suponha que uma amostra de 
64 famílias de quatro pessoas que tenham ido passar as férias em Niagara Falls resultasse em uma 
média amostral de US$ 252,45 por dia e um desvio padrão amostral de US$ 74,50. 


a. Desenvolva uma estimação por intervalo de confiança de 95% da quantia média gasta por dia por 
uma família de quatro pessoas que visita Niagara Falls. 

b. Com base no intervalo de confiança do item (a), parece que a quantia média populacional gasta por 
dia pelas famílias que visitam Niagara Falls difere da média registrada pela American Automobile 
Association. Explique. 


O filme Harry Potter e a Pedra Filosofal quebrou, em seu lançamento, o recorde de bilheteria ante- 
riormente mantido pelo filme O Mundo Perdido — Jurassic Park (The Wall Street Journal, 19 de 
novembro de 2001). Uma amostra de 100 cinemas revelou que a média de renda bruta em três dias 
do fim de semana foi de US$ 25.467 por cinema. O desvio padrão da amostra foi de US$ 4.980. 


a. Qual é a margem de erro desse estudo? Use 95% de confiança. 

b. Qual é a estimação por intervalo de confiança de 95% relativa à média populacional de renda bruta 
por cinema nos fins de semana? 

c. O filme O Mundo Perdido – Jurassic Park arrecadou US$ 72,1 milhões em três dias no seu primei- 
ro fim de semana. Harry Potter e a Pedra Filosofal foi apresentado em 3.672 cinemas. Qual é a 
estimativa do total que Harry Potter e a Pedra Filosofal arrecadou em três dias no seu primeiro fim 
de semana? 

d. Um artigo da Associated Press afirmou que Harry Potter “estraçalhou”, em seu lançamento, o 
recorde de bilheteria que era mantido pelo filme O Mundo Perdido — Jurassic Park. Os resultados 


que você obteve concordam com essa afirmação? 
Muitos observadores do mercado de valores dizem que quando a relação preço/rendimentos (P/R) das 
ações ultrapassa 20, o mercado está “superavaliado”. A relação preço/rendimentos é o preço das ações 
dividido pelo rendimento obtido nos 12 meses mais recentes. Suponha que você esteja interessado em 
verificar se o mercado está superavaliado, e que também gostaria de saber qual proporção de empre- 
sas paga dividendos. Uma amostra aleatória de 30 empresas listadas na Bolsa de Valores de Nova 


York (Nyse) é apresentada (Barron's, 19 de janeiro de 2004). 


Relação Preço/ Relação Preço/ 
Empresa Dividendo Rendimentos Empresa Dividendo Rendimentos 
Albertsons Sim 4 NY Times A Sim 25 
BRE Prop Sim 8 Omnicare Sim 25 
CityNtl Sim 6 PallCp Sim 23 
DelMonte Não 21 PubSvcEnt Sim | 
EnrgzHidg Não 20 SenstentTch Sim | 
Ford Motor Sim 22 SmtProp Sim 2 
Gildan A No 2 TJX Cos Sim 21 
HudsnUtdBcp Sim 3 Thomson Sim 30 
IBM Sim 2 USB Hidg Sim 2 
JeffPilot Sim 6 US Restr Sim 26 
KingswayFin Мао 6 Varian Med Мао 41 
Libbey Sim 3 Visx Nào 72 
Masonitelnti Não 5 Waste Mgt Não 23 
Motorola Sim 68 Wiley A Sim 21 
Ntl City Sim 0 Yum Brands Náo 8 
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48. 


49. 


50. 


51. 


52, 


53. 


a. Qual é a estimação por ponto da relação preco/rendimentos (P/R) das ações listadas na Bolsa de 
Valores de Nova York (Nyse)? Desenvolva um intervalo de confiança de 95%. 

b. Com base em sua resposta ao item (a), você acredita que o mercado está superavaliado? 

c. Qual é a estimação por ponto da proporção de empresas listadas na Nyse que pagam dividendos? 
O tamanho da amostra é suficientemente grande para justificar o uso da distribuição normal para 
construir um intervalo de confiança para essa proporção? Por quê? 


A US Airways realizou uma série de estudos que indicaram que poderiam obter uma economia subs- 
tancial se estimulassem os clientes participantes do programa de milhagem (frequent flyer) Dividend 
Miles a resgatar as milhas ganhas e a reservar seus vôos-prêmio pelo sistema on-line (US Airways 
Attache, fevereiro de 2003). Um estudo coletou dados sobre a quantidade de tempo necessário para 
que as pessoas resgatem as milhas ganhas e reservem os vôos recebidos como prêmio pelo telefone. 
Uma amostra apresentando o tempo em minutos correspondente a 150 reservas de vôos-prêmio pelo 
telefone está contida no conjunto de dados (data set) intitulado Flights. Use o Minitab ou o Excel para 
auxiliá-lo a responder às seguintes questões: 


a. Qual é a média amostral do número de minutos necessários para reservar um vôo-prêmio pelo tele- 
fone? 

b. Qual é o intervalo de confiança de 95% da média populacional correspondente ao tempo necessá- 
rio para reservar um vôo-prêmio pelo telefone? 

c. Suponha que um(a) atendente trabalhe 7,5 horas por dia atendendo ao telefone. Quantos vôos-prê- 
mio um(a) atendente é capaz de manipular em um dia? 

d. Discuta as razões pelas quais essa informação deu suporte aos planos da US Airways para utilizar 
um sistema on-line para reduzir os custos. 


Uma pesquisa feita pela Accountemps pediu a uma amostra de 200 executivos que fornecessem dados 
sobre o número de minutos por dia que os funcionários de escritório gastavam para localizar itens mal 
rotulados, mal arquivados ou colocados fora do lugar. Dados coerentes com essa pesquisa estão con- 
tidos no conjunto de dados ActTemps. 


a. Use o arquivo ActTemps para desenvolver uma estimação por ponto do número de minutos por dia 
que os funcionários de escritório gastam para localizar itens mal rotulados, mal arquivados ou colo- 
cados fora do lugar. 

b. Qual é o desvio padrão da amostra? 

c. Qual é o intervalo de confiança de 95% da média do número de minutos gastos por dia? 


Foram realizados testes do consumo de combustível de determinado modelo de automóvel. Se for 
desejado um intervalo de confiança de 98%, com uma margem de erro de 1 milha (1.609 m) por galão 
(3,78 litros), quantos automóveis deveriam ser usados no teste? Suponha que os testes preliminares 
de consumo de combustível indiquem que o desvio padrão é de 2,6 milhas (4,18 km) por galão. 


Para desenvolver a programação de horários de consulta médica, um centro médico quer uma estima- 
tiva do tempo médio que um membro da equipe gasta para atender a cada paciente. Qual tamanho de 
amostra deve ser tomado se a margem de erro desejada é de dois minutos, com um grau de confian- 
ça de 95%? Use um valor planejado de oito minutos para o desvio padrão da população. 


Dados dos salários anuais mais bonificações recebidos pelos CEOs das empresas são publicados na 
Annual Pay Survey (Pesquisa de Salários Anuais) da revista Business Week. Uma amostra preliminar 
revelou que o desvio padrão é igual a US$ 675, sendo os dados fornecidos em milhares de dólares. 
Quantos CEOs devem estar contidos em uma amostra se quisermos obter uma estimativa da média 
populacional dos salários anuais mais bonificações, com uma margem de erro de US$ 100 mil? (Nota: 
A margem de erro desejada seria E = 100 se os dados forem expressos em milhares de dólares.) Use 
95% de confiança. 


O National Center for Education Statistics divulgou que 47% dos estudantes universitários trabalham 
para pagar os gastos de estudo e moradia. Suponha que uma amostra de 450 estudantes tenha sido 
usada nesse estudo. 


a. Forneça um intervalo de confiança de 95% relativo à proporção populacional de estudantes univer- 
sitários que trabalham para pagar os gastos de estudo e moradia. 

b. Providencie um intervalo de confiança de 99% relativo à proporção populacional de estudantes uni- 
versitários que trabalham para cobrir os gastos de estudo e moradia. . 

c. O que acontece à margem de erro quando o intervalo de confiança de 95% é aumentado para 99%? 


Capítulo 8 Estimação por Intervalo 
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Uma pesquisa do jornal USA Today, CNN e Instituto Gallup realizada com 369 pais trabalhadores 
revelou que 200 deles disseram dedicar pouquíssimo tempo aos filhos em razáo dos compromissos 
de trabalho. 


a. Qual é a estimação por ponto da proporção da população de pais trabalhadores que afirmam dedi- 
car pouco tempo aos filhos em virtude dos compromissos de trabalho? 

b. Com 95% de confiança, qual é a margem de erro? 

C. Qual é a estimação por intervalo de confiança da proporção populacional de pais trabalhadores 
afirmam dedicar pouco tempo aos filhos em conseqüéncia dos compromissos de trabalho? 


Qual desses itens você teria mais dificuldade para abrir mão: seu computador ou sua televisão? Em uma 
pesquisa recente com 1.677 usuários de internet norte-americanos, 74% dos jovens da elite tecnológi- 
ca (média de idade, 22 anos) dizem que seria muito difícil abrir mão do computador (PC Magazine, 3 
de fevereiro de 2004). Somente 48% deles dizem que seria muito difícil desistir da televisão. 


a. Desenvolva um intervalo de confiança de 95% relativo à proporção dos jovens da elite tecnológica 
que achariam muito difícil abrir mão do computador. 

b. Estabeleça um intervalo de confiança de 99% relativo à proporção dos jovens da elite tecnológica 
que achariam muito difícil abrir mão do computador. 

c. Em qual dos casos, item (a) ou item (b), a margem de erro é maior? Explique o porquê. 


Uma pesquisa feita pela Roper Starch perguntou a empregados com idades de 18 a 29 anos se eles 
prefeririam um seguro-saúde melhor ou um aumento de salário (USA Today, 5 de setembro de 2000). 
Responda às perguntas a seguir supondo que 340 de 500 empregados disseram que prefeririam um 
seguro-saúde melhor em vez de um aumento. 


a. Qual é a estimação por ponto da proporção de empregados com idades de 18 a 29 anos que prefe- 
ririam um seguro-saúde melhor? 
b. Qual é a estimação por intervalo de confiança da proporção populacional? 


O 2003 Statistical Abstract of the United States divulgou a porcentagem de pessoas com idades a par- 
tir de 18 anos que fumam. Suponha que um estudo idealizado para coletar dados dos fumantes e não- 
fumantes utilize uma estimativa preliminar de 0,30 correspondente à proporção dos fumantes. 


a. Qual tamanho de amostra deve ser tomado para estimar a proporção dos fumantes na população, 
com uma margem de erro de 0,02? Use 95% de confiança. 

b. Suponha que o estudo utilize sua recomendação de tamanho de amostra do item (a) e encontre 520 
fumantes. Qual é a estimação por ponto da proporção de fumantes na população? 

с, Qual é o intervalo de confiança da proporção de fumantes na população? 


Uma famosa empresa de cartões de crédito deseja estimar a proporção dos portadores de cartão de 
crédito que apresentam um saldo diferente de zero no fim do mês e incorrem na cobrança de juros. 
Suponha que a margem de erro desejada seja de 0,03, com 98% de confiança. 


a. Qual tamanho de amostra deve ser selecionado considerando-se que há a previsão de que aproxi- 
madamente 70% dos portadores de cartão de crédito da empresa mantêm saldos diferentes de zero 
no fim do mês? 

b. Qual tamanho de amostra deveria ser selecionado se nenhum valor planejado para a proporção 
pudesse ser especificado? 


Em uma pesquisa, 200 pessoas foram solicitadas a identificar suas principais fontes de notícias; 110 
declararam que a principal fonte de informação eram os noticiários de televisão. 


a. Construa um intervalo de confiança de 95% relativo à proporção de pessoas da população que con- 
sideram a televisão sua principal fonte de notícias. 

b. Qual tamanho de amostra seria necessário para estimar a proporção populacional com uma mar- 
gem de erro de 0,05, com 95% de confiança? 


Não obstante os horários das empresas aéreas e o custo serem fatores importantes para as pessoas que 

viajam a negócios ao escolherem uma empresa aérea, uma pesquisa realizada pelo jornal USA Today 

revelou que as pessoas que fazem viagens de negócios mencionam o programa de milhagem (frequent 

flyer) como o fator mais importante, De uma amostra de n = 1.993 viajantes de negócios que respon- 

deram à pesquisa, 618 mencionaram um programa de milhagem como o fator mais importante. 

a. Qual é a estimação por ponto da proporção da população de pessoas que fazem viagens de negó- 
cios que acreditam que um programa de milhagem é o fator mais importante ao escolherem uma 
empresa aérea? 
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b. Desenvolva uma estimação por intervalo de confiança da proporção populacional. 
c. Qual tamanho de amostra seria necessário para registrar a margem de erro de 0,01, com 95% de 
confiança? Você recomendaria ao USA Today tentar fornecer esse grau de precisão? Por quê? 


Estudo de Caso | - Bock Investment Services 


A meta da Bock Investment Services (BIS) é tornar-se a líder em serviços de consultoria do mercado finan- 
ceiro na Carolina do Sul. Para oferecer melhores serviços aos seus clientes atuais e para atrair novos clien- 
tes, a BIS desenvolveu um boletim informativo semanal. A BIS está considerando a possibilidade de adi- 
cionar um novo destaque (feature) ao boletim informativo, o qual relate os resultados de uma pesquisa tele- 
fônica semanal de gerentes de fundos financeiros. Para investigar a viabilidade de oferecer esse serviço, e 
para determinar qual tipo de informação incluir no boletim, a BIS selecionou uma amostra aleatória sim- 
ples de 45 fundos do mercado financeiro. Uma parte dos dados obtidos é apresentada na Tabela 8.6, que 
registra os ativos e os rendimentos dos fundos financeiros no último período de sete a 30 dias. Antes de 
telefonar aos gerentes de fundos do mercado financeiro para obter dados adicionais, a BIS decidiu reali- 
zar algumas análises preliminares dos dados já coletados. 


Relatório Administrativo 


1. Use a estatística descritiva apropriada para sintetizar os dados sobre ativos e rendimentos dos fun- 
dos do mercado financeiro. 

2. Desenvolva uma estimação por intervalo de confiança de 95% da média de ativos, do rendimento 
médio em sete dias e do rendimento médio em 30 dias para a população de fundos do mercado 
financeiro. Apresente uma interpretação administrativa de cada estimação por intervalo. 

3. Discuta a implicação de suas conclusões em termos de como a BIS poderia utilizar esse tipo de 
informação ao preparar seu boletim semanal. 

4. Quais outras informações você recomendaria à BIS coletar a fim de oferecer a informação mais útil 
aos seus clientes? 


Estudo de Caso 2 - Gulf Real Estate Properties 


A Gulf Real Estate Properties, Inc., é uma empresa imobiliária localizada no sudoeste da Flórida. A empre- 
sa, que divulga a si mesma como “especialista no mercado imobiliário”, monitora as vendas em condomí- 
nios coletando dados sobre a localização, preço de tabela, preço de venda e número de dias necessários 
para vender cada “unidade, 


Tabela 8.6 Dados da Bock Investiment Services 


Ativos Rendimento Rendimento 
Fundo do Mercado Financeiro (US$ milhões) (%) em 7 dias (%) em 30 dias 
Атсоге 103,9 4,10 4,08 
Alger 156,7 4,79 4,73 
Arch MM/Trust 496,5 4,17 413 
BT Instit Treas 197,8 4,37 4,32 
Benchmark Div 2.755,4 4,54 4,47 
Bradford 707,6 3,88 3,83 
Capital Cash 17 4,29 422 
Cash Mgt Trust 2.707,8 4,14 404 
Composite 122,8 4,03 391 
Cowen Standby 694,7 425 4,19 
Cortland 2173 3,57 3,51 
Dedlaration 38.4 2,67 2,61 
Dreyfus 4.832,8 401 3,89 
Elfun 81,7 4,51 441 
FFB Cash 506,2 417 4,11 


Federated Master 738,7 441 4,34 


Capítulo 8 Estimação por Intervalo 301 


Tabela 8.6 Dados da Bock Investiment Services (continuação) 


Ativos Rendimento Rendimento 
Fundo do Mercado Financeiro (US$ milhões) (96) em 7 dias (96) em 30 dias 
Fidelity Cash 13.2728 4,51 4,42 
Flex-fund 172,8 4,60 4,48 
Fortis 105,6 3,87 3,85 
Franklin Money 996,8 3,97 3,92 
Freedom Cash 1.079,0 4,07 401 
Са!аху Мопеу 801,4 411 3,96 
Government Cash 409,4 3,83 3,82 
Hanover Cash 7943 432 423 
Heritage Cash 1.008,3 4,08 4,00 
Infinity/Alpha 53,6 3,99 3,91 
John Hancock 226,4 3,93 3,87 
Landmark Funds 481,3 428 426 
Liquid Cash 388,9 4,61 4,64 
MarketWatch 10,6 4,13 4,05 
Merrill Lynch Money 27.005,6 4,24 4,18 
NCC Funds 113,4 422 4,20 
Nationwide 517,3 4,22 4,14 
Overland 291,5 4.26 447 
Pierpont Money 1.991,7 4,50 4,40 
Portico Money 161,6 4,28 4,20 
Prudential MoneyMart 6.835,1 4,20 4,16 
Reserve Primary 1408,8 3,91 3,86 
Schwab Money 10.531,0 4,16 407 
Smith Barney Cash 2.947,6 4,16 4,12 
Stagecoach 1.502,2 4,18 4,13 
Strong Money 470,2 4,37 429 
Transamerica Cash 175,5 4,20 419 
United Cash 323,7 3,96 3,89 
Woodward Money 1.330,0 4,24 421 


Fonte: Barron's, 3 де outubro de 1994. 


Tabela 8.7 Dados de vendas da Gulf Real Estate Properties 
Condomínios com Vista para o Golfo Condomínios sem Vista para o Golfo 
Preco de Preco de Dias Necessários Preço de Prego de Dias Necessários 

Tabela Venda para Vender Tabela Venda para Vender 

495,0 4750 30 217,0 217,0 82 ARQUIVO 
379,0 350,0 71 48,0 135,5 338 DA INTERNET 
529,0 519,0 85 86,5 790 22 Guif Pr 
552,5 534,5 95 239,0 230,0 50 ЧА trop 
334,9 334,9 19 279,0 267,5 69 

550,0 505,0 92 215,0 2140 58 

169,9 165,0 97 279,0 259,0 HO 

210,0 210,0 56 799 76,5 130 

975,0 945,0 73 49,9 449 49 

3140 3140 26 235,0 230,0 114 

315,0 305,0 88 199,8 92,0 20 

885,0 800,0 282 210,0 95,0 ` 61 

975,0 975,0 00 2260 212,0 146 

469,0 445,0 56 49,9 46,5 137 

329,0 305,0 49 60,0 60,0 281 

365,0 330,0 48 322,0 292,5 63 

332,0 312,0 88 87,5 79,0 48 

520,0 495,0 6l 247,0 227,0 52 

425,0 405,0 49 
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Tabela 8.7 Dados de vendas da Gulf Real Estate Properties (continuação) 


Condomínios com Vista para o Golfo 


Preço de Preço de Dias Necessários 

Tabela Venda para Vender 
675,0 669,0 42 
409,0 400,0 28 
649,0 649,0 29 
319,0 305,0 40 
425,0 410,0 85 
359,0 340,0 07 
469,0 449,0 72 
895,0 875,0 29 
439,0 430,0 60 
435,0 400,0 206 
235,0 2270 91 
638,0 618,0 00 
629,0 600,0 97 
329,0 309,0 14 
595,0 555,0 45 
339,0 315,0 50 
215,0 2000 48 
395,0 375,0 35 
449,0 425,0 53 
499,0 465,0 86 
439,0 428,5 58 


Cada condomínio é classificado como Com Vista para o Golfo, se estiver localizado diretamente defron- 
te ao Golfo do México, ou Sem Vista para o Golfo, se estiver localizado na baía ou em um campo de golfe, 
próximo, mas não no Golfo. Dados amostrais do Multiple Listing Service de Naples, Flórida, forneceram 
dados de venda recentes de 40 condomínios Com Vista para o Golfo e 18 condomínios Sem Vista para o 
Golfo.5 Os preços estão expressos em milhares de dólares. Os dados encontram-se na Tabela 8.7. 


Relatório Administrativo 


1. Use a estatística descritiva apropriada para sintetizar cada uma das três variáveis correspondentes 
aos 40 condomínios Com Vista para o Golfo. 

2. Utilize a estatística descritiva apropriada para sintetizar cada uma das três variáveis corresponden- 
tes aos condomínios Sem Vista para o Golfo. 

3. Compare os resultados de seu sumário estatístico. Discuta quaisquer resultados estatísticos especí- 
ficos que possam ajudar um agente imobiliário a entender o mercado de condomínios. 

4. Desenvolva uma estimação por intervalo de confiança de 95% da média populacional dos preços 
de venda e a média populacional do número de dias necessários para vender condomínios Com 
Vista para o Golfo. Interprete os resultados que obteve. 

5. Estabeleça uma estimação por intervalo de confiança de 95% da média populacional dos preços de 
venda e a média populacional do número de dias necessários para vender condomínios Sem Vista 
para o Golfo. Interprete os resultados que obteve. 

6. Suponha que o gerente de uma filial tenha solicitado estimativas do preço médio de venda de con- 
domínios Com Vista para o Golfo, com uma margem de erro de US$ 40 mil, e o preço médio de 
venda de condomínios Sem Vista para o Golfo, com uma margem de erro de US$ 15 mil. Usando 
95% de confiança, quais devem ser os tamanhos de amostra? 

7. A Gulf Real Estate Properties assinou, há pouco tempo, contratos de duas novas intermediações de 

venda: um condomínio Com Vista para o Golfo com um preço de tabela de US$ 589 mil e um con- 


8 Dados baseados em vendas de condomínios publicados no Multiple Listing Service (MLS) de Naples (Coldwell Banker, junho de 
2000). 
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domínio Sem Vista para o Golfo com um prego de tabela de US$ 285 mil. Qual é sua estimativa do 
preço de venda final e do número de dias necessários para vender cada uma dessas unidades? 


Estudo de Caso 3 - Metropolitan Research, Inc. 


A Metropolitan Research, Inc., uma organização de pesquisa de consumo, realiza pesquisas projetadas 
para avaliar ampla variedade de produtos e serviços disponíveis aos consumidores. Em um estudo em 
particular, a Metropolitan queria avaliar a satisfação do consumidor com o desempenho dos automóveis 
produzidos por uma grande montadora de Detroit. Um questionário enviado aos proprietários de carros 
completamente equipados produzidos pela montadora revelou diversas reclamações sobre problemas de 
transmissão prematuros. Para saber mais sobre as falhas de transmissão, a Metropolitan usou uma amos- 
tra de reparos de transmissão reais fornecida por uma firma de reparo de caixas de câmbio da região de 
Detroit. Os dados a seguir apresentam o número real de milhas rodadas de 50 veículos no momento em 
que ocorreu a falha de transmissão. 


85.092 32.609 59.465 77.437 32.534 64.090 32.464 59.902 
39.323 89.641 94.219 116.803 92.857 63.436 65.605 85.861 
64.342 61.978 67.998 59.817 101.769 95.774 121.352 69.568 
74.276 66.998 40.001 72.069 25.066 77.098 69.922 35.662 
74.425 67.202 118.444 53.500 79.294 64.544 86.813 116.269 
37.831 89.341 73.341 85.288 138.114 53.402 85.586 82.256 
77.539 88.798 


Relatório Administrativo 


1. Use a estatística descritiva apropriada para resumir os dados de falha de transmissão. 


2. Desenvolva um intervalo de confiança de 95% do número médio de milhas rodadas até o momen- 
to da falha de transmissão para a população de automóveis que apresentaram falhas de transmissão. 
Apresente uma interpretação gerencial da estimação por intervalo, 


3. Discuta a implicação de sua conclusão estatística em termos da convicção de que alguns proprietá- 
rios dos automóveis enfrentaram problemas de transmissão prematuros. 


4. Quantos registros de reparos devem ser tomados como amostra se a empresa que realiza a pesqui- 
sa quiser que o número médio de milhas até a ocorrência da falha de transmissão seja estimado com 
uma margem de erro de 5 mil milhas? Use 95% de confiança. 


5. Quais outras informações você gostaria de reunir para avaliar mais plenamente o problema de 
falhas de transmissão? 


Apêndice 8.1 — Estimação por Intervalo com o Minitab 


Descrevemos o uso do Minitab para construir intervalos de confiança de uma média populacional e de uma 
proporção populacional. 


Média da População: с Conhecido 


Ilustramos a estimação por intervalo usando o exemplo da Lloyd's na Seção 8.1. As quantias gastas em 
cada ida às compras referentes à amostra de 100 clientes estão na coluna C1 de uma planilha do Minitab. 
Presume-se que o desvio padrão o =20 da população seja conhecido. As etapas a seguir podem ser usa- 
das para calcular uma estimação por intervalo de confiança de 95% da média populacional. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Basic Statistics 

Etapa 3. Escolha I-Sample Z 

Etapa 4. Quando a caixa de diálogo 1-Sample Z aparecer: 
Digite C1 na caixa Samples in columns 
Digite 20 na caixa Standard deviation 

Etapa 5. Рё um clique em OK 
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O padrão do Minitab é um grau de confiança de 95%. Para especificar um grau de confiança diferen- 
te. por exemplo, 90%, acrescente o seguinte à etapa 4. 


Selecione Options 

Quando a caixa de diálogo 1-Sample Z-Options aparecer: 
Digite 90 na caixa Confidence level 

Dê um clique em OK 


Média da População: с Desconhecido 


Пиѕітатоѕ a estimação por intervalo usando os dados da Tabela 8.3, a qual exibe os saldos de cartões de 
crédito de uma amostra de 85 famílias. Os dados encontram-se na coluna C1 de uma planilha do Minitab. 
Nesse caso, a estimativa do desvio padrão o da população será feita por meio do desvio padrão o da amos- 
tra. As etapas a seguir podem ser usadas para calcular uma estimação por intervalo de confiança de 95% 
da média populacional. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Basic Statistics 

Etapa3. Escolha 1-Sample t 

Etapa 4. Quando a caixa de diálogo 1-Sample t aparecer: 
Digite C1 na caixa Samples in columns 

Etapa 5. Рё um clique em OK 


O padrão do Minitab é um grau de confiança de 95%. Para especificar um grau de confiança diferente, por 
exemplo, 90%, acrescente o seguinte à etapa 4. 


Selecione Options 

Quando a caixa de diálogo 1-Sample t-Options aparecer: 
Digite 90 na caixa Confidence level 

Dé um clique em OK 


Proporcáo da Populacáo 


Пиѕітатоѕ a estimação por intervalo usando os dados de pesquisa de mulheres golfistas apresentados na 
Secáo 8.4. Os dados encontram-se na coluna C1 de uma planilha do Minitab. As respostas estáo registra- 
das como Sim se a golfista estiver satisfeita com a disponibilidade de tee times e Nào se náo estiver. Аз 
etapas a seguir podem ser usadas para calcular uma estimacáo por intervalo de confianga de 95% da pro- 
porção de mulheres golfistas que estão satisfeitas com a disponibilidade de tee times. 


Etapa 1. Selecione o menu Stat 

Etapa 2, Escolha Basic Statistics 

Etapa 3. Escolha 1 Proportion 

Etapa 4. Quando a caixa de diálogo 1 Proportion aparecer: 

| Digite С1 na caixa Samples in columns 

Etapa 5. Selecione Options 

Etapa 6. Quando a caixa de diálogo 1 Proportion-Options aparecer: 
Selecione Use test and interval based on normal distribution 
Dé um clique em OK 

Etapa 7. Dê um clique em OK 


O padrão do Minitab é um grau de confiança de 95%. Para especificar um grau de confiança diferente, por 
exemplo, 90%, digite 90 na caixa Confidence Level, quando a caixa de diálogo 1 Proportion-Options apa- 
recer na etapa 6. 

Nota: A rotina 1 Proportion do Minitab usa uma classificação em ordem alfabética das respostas e sele- 
ciona a segunda resposta para a proporção populacional de interesse. No exemplo das mulheres golfistas, 
o Minitab usou uma classificação em ordem alfabética Não-Sim e depois forneceu o intervalo de confian- 
ça relativo às respostas Sim. Uma vez que Sim era a resposta de interesse, a saída de dados (output) do 
Minitab foi ótima. Entretanto, se a classificação em ordem alfabética do Minitab não produzir a resposta 
de interesse, selecione qualquer célula da coluna e use a seqüéncia: Editor > Column > Value Order. Isso 
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Ihe apresentará a opcáo de digitar uma ordem especificada pelo usuário, mas vocé deve listar a resposta de 
interesse em segundo lugar na caixa "define-an-order". 


Apéndice 8.2 — Estimacáo por Intervalo com o Excel 


Descrevemos o uso do Excel para construir intervalos de confiança de uma média populacional e de uma 
proporcáo populacional. 


ARQUIVO 


Média da População: O Conhecido BAINTEENÈT 
Ilustramos a estimação por intervalo usando o exemplo da Lloyd's na Seção 8.1. Presume-se que o desvio Lloyds 


padrão o —20 da população seja conhecido. As quantias gastas pela amostra de 100 clientes encontram- 
se na coluna А de uma planilha do Excel. As etapas a seguir podem ser usadas para calcular a margem de 
erro de uma estimativa da média populacional. Iniciamos utilizando a ferramenta Estatística Descritiva do 
Excel, apresentada no Capítulo 3. 


Etapa 1. 
Etapa 2. 
Etapa 3. 
Etapa 4. 


Selecione o menu Ferramentas 
Escolha Análise de Dados 
Escolha Estatística Descritiva na lista Ferramentas de Análise 
Quando a caixa Estatística Descritiva aparecer: 
Digite A1:A101 na caixa Intervalo de Entrada 
Selecione Agrupado por Colunas 
Selecione Rótulos na Primeira Linha 
Selecione Intervalo de Saída 
Digite C1 na caixa Intervalo de Saída 
Selecione Resumo Estatístico 
Dé um clique em OK 


O resumo estatístico aparecerá nas colunas C e D. Prossiga, calculando a margem de erro com o uso da 
função INT. CONFIANCA do Excel da seguinte maneira: 


Etapa 5. 
Etapa 6. 


Selecione a célula C16 e digite o rótulo Margem de Erro 
Selecione a célula D16 e digite a fórmula -ZINT.CONFIANCA(0,05;20;100) do Excel 


Os três argumentos da função INT.CONFIANCA são: 


Alfa —1 — coeficiente de confiança = 1 ~ 0,95 = 0,05 

O desvio padrão da população = 20 

O tamanho da amostra = 100 (Nota: Esse argumento aparece como COUNT.NÜM na 
célula D15.) 


A estimação por ponto da média populacional encontra-se na célula D3, e a margem de erro encontra-se 
na célula D16. A estimação por ponto (82) e a margem de erro (3,92) permitem que o intervalo de con- 


fiança relativo à média populacional seja facilmente calculado. 


Média da População: с Desconhecido 


Tlustramos a estimação por intervalo usando os dados da Tabela 8.3, a qual apresenta os saldos de cartões ARQUIVO 
de crédito de uma amostra de 85 famílias. Os dados encontram-se na coluna A de uma planilha do Excel. DA INTERNET 
As etapas apresentadas a seguir podem ser usadas para calcular a estimação por ponto e a margem de erro Balance 


da estimação por intervalo de uma média populacional. Usaremos a ferramenta Estatística Descritiva apre- 
sentada no Capítulo 3. 


Etapa 1. 
Etapa 2. 
Etapa 3. 
Etapa 4. 


Selecione o menu Ferramentas 
Escolha Análise de Dados 
Escolha Estatística Descritiva na lista Ferramentas de Análise 
Quando a caixa Estatística Descritiva aparecer: 
Digite A1:A86 na caixa Intervalo de Entrada 
Selecione Agrupado por Colunas 
Selecione Rótulos na Primeira Linha 
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Selecione Intervalo de Saída 

Digite C1 na caixa Intervalo de Saída 

Selecione Resumo Estatístico 

Selecione Nível de Confiabilidade para Média 
Digite 95 na caixa Nível de Confiabilidade para Média 
Dê um clique em OK 


O resumo estatístico aparecerá nas colunas C e D. A estimação por ponto da média populacional apa- 
rece na célula D3. A margem de erro, rotulada como “Nível de Confiabilidade(95,0%)”, aparecerá na célu- 
la D16. A estimação por ponto (US$ 5.900) e a margem de erro (US$ 660) permitem que o intervalo de 
confiança relativo à média populacional seja facilmente calculado. Os dados de saída (output) desse pro- 
cedimento do Excel encontram-se na Figura 8.10. 


Proporção da População 


Tlustramos a estimação por intervalo usando os dados de pesquisa de mulheres golfistas apresentados na 
Seção 8.4. Os dados encontram-se na coluna А de uma planilha do Excel. As respostas individuais estão 
registradas como Sim se a golfista estiver satisfeita com a disponibilidade de tee times, e como Não se não 
estiver. O Excel não oferece uma rotina própria para manipular a estimação de uma proporção populacio- 
nal; entretanto, é relativamente fácil de desenvolver um modelo (template) Excel que possa ser usado para 
essa finalidade. O modelo mostrado na Figura 8.11 fornece uma estimação por intervalo de confiança de 
95% da proporção de mulheres golfistas que estão satisfeitas com a disponibilidade de tee times. Observe 
que a planilha em segundo plano na Figura 8.11 exibe fórmulas nas células que produzem os resultados 
de estimação por intervalo apresentados na planilha que está em primeiro plano. As etapas a seguir são 
necessárias para que se possa usar o modelo para esse conjunto de dados (data set). 


Figura 8.10 Estimação por intervalo da média da população de cartões de crédito com o Excel 
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Etapa 1. Digite o intervalo de dados A2:A901 na fórmula =CONT.VALORES da célula D3 
Etapa 2. Digite Sim como a resposta de interesse na célula D4 

Etapa 3. Digite o intervalo de dados A2:A901 na fórmula =CONT.SE da célula D5 

Etapa 4. Digite 0,95 como coeficiente de confiança na célula D8 


O modelo fornece automaticamente o intervalo de confiança nas células D15 e D16. 


Capítulo 8 


Estimação por Intervalo 


Esse modelo pode ser usado para calcular o intervalo de confiança relativo a uma proporção popula- 
cional de outras aplicações. Por exemplo, para calcular a estimação por intervalo de um novo conjunto de 
dados, digite os novos dados amostrais na coluna A da planilha e depois faça as alterações nas quatro célu- 
las, conforme mostrado. Se os novos dados amostrais já tiverem sido resumidos, eles não precisam ser 
introduzidos na planilha. Nesse caso, digite o tamanho da amostra na célula D3 e a proporção da amostra 
na célula D6; o modelo de planilha produzirá então o intervalo de confiança da proporção populacional. 
A planilha da Figura 8.11 está disponível no arquivo Interval p no CD anexo a este livro. 


Figura 8.11 Modelo Excel de estimação por intervalo de uma proporção populacional 


A | B C o . D E 
1 | Resposta Estimação por Intervalo de uma Proporção Populacional 
2 
3 Não Tamanho da Amostra | =CO 
4 Sim * Resposta de Interesse | Sim 
5 Sim . Contagem e Respostas -CONTSE(A2:A901D4) 
#6 Мао Proporção da Amostra [=DS/D3 — 
7 Não x. 
8 . Não Coeficiente de confiança) 0.95 
9 [ Sim Valor х [EINVNORMIO,51D8/2) a 
10 Sim 
H| Sim | Desvio Padrão [-RAIZ(DO*(1-DO/D3) » “ 
12: Não Margem de Erro 9*DII« £o | 
13 Não | 
14 + Sim * Estimação por Ponto [|-D6 
15 Мао Limite Mínimo [-D14-Di2 * à 
[16| Não: Limite Máximo [-D144D12 — . EM 
17 | ^ Sim = 
718 | Мао > Ac | B С | р Е ЖАШЫ 
901^ Sims 1 | Resposta Estimação por Intervalo de uma Proporção Populacional 
902 [2 ИС 
3 Não. | Tamanho da Amostra |; 900. — LÀ 
4|.Sim | Resposta de Interesse Sim oe а resposa de 
5 Sim | Contagem e Respostas 
6 | Não Proporção da Amostra |. 
7 | Não | Dig Ocera || 
8.| " Não Coeficiente de confiança confiança” e 
9 Sim Valor z 17960 | 
10 Sim 
И | : Sim Desvio Padrão 
12 Não Margem de Erro 
13 |. Não 
14 Sim | Estimação por Ponto 
15 Não | Limite Mínimo 
16 Não Limite Máximo 
17 Sim 
18 Não | 
901| Sim 
962 1 
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Nota: As linhas do 
intervalo 19 a 900 
estão ocultas. 


CAPÍTULO 9 


Testes de Hipóteses 


ESTATÍSTICA NA PRÁTICA 


JOHN MORRELL & COMPANY 
Cincinnati, Ohio 


A John Morrell & Company, que se iniciou na Inglaterra em 1827, é considerada o mais antigo frigorífico em 
operação contínua nos Estados Unidos. Ela é uma subsidiária integral da Smithfield Foods, de Smithfield, 
Virgínia, gerenciada independentemente. A John Morrell & Company oferece uma extensa linha de produtos 
frigoríficos e de came de porco fresca a consumidores de 13 marcas regionais, entre as quais se incluem a 
John Morrell, E-Z-Cut, Tobin's First Prize, Dinner Bell, Hunter, Kretschmar, Rath, Rodeo, Shenson, Farmers 
Hickory Brand, lowa Quality e Peyton's. Cada marca regional desfruta de elevado reconhecimento de marca 
e fidelidade entre os seus consumidores. 

Pesquisas de mercado realizadas pela Morrell fornecem à administração informações atualizadas sobre os 
vários produtos da empresa e como estes se comparam com as marcas concorrentes de produtos similares. 
Um estudo recente investigou a preferéncia pela linha Convenient Cuisine Beef Pot Roast, da Morrell, em 
comparação com produtos frigoríficos de duas grandes concorrentes. No teste comparativo de três produ- 
tos, foi utilizada uma amostra de consumidores que deveriam indicar qual era a avaliação dos produtos em 
termos de sabor, aspecto, aroma e preferência global. 

Uma das preocupações da pesquisa era se a linha Convenient Cuisine Beef Pot Roast, da Morrell, era a 
opção preferida de mais de 50% da população consumidora. Admitindo-se que p indique a proporção da 
população que preferia o produto da Morrell, o teste de hipóteses referente à questão da pesquisa é: 


Нұр = 0,50 
Hy p > 0,50 


* Os autores agradecem a Мапу Butler, vice-presidente de Marketing da John Morrell & Company, por fornecer esta “Estatística 
na Prática”. 
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Aprender a 
formular hipóteses 
corretamente é 
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demandará prática. 
Aguarde certa 
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de Ho e de H,. Os 
exemplos desta 
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uma série de 
formas de Но e 
Ha, dependendo 
da aplicação. 
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A hipótese nula Hg indica que a preferência pelo produto da Morrell é menor ou igual a 5096. Se os dados 
amostrais sustentarem a opção de rejeitar Но em favor da hipótese alternativa H,, a Morrell chegará à conclu- 
são com base em pesquisa de que, em uma comparação de três produtos, seus produtos são os preferidos por 
mais de 50% da população consumidora. 

Em um estudo independente de testes de sabor envolvendo uma amostra de 224 consumidores de 
Cincinnati, Milwaukee e Los Angeles, 150 consumidores escolheram o Convenient Cuisine Beef Pot Roast, da 
Morrell, como o produto preferido. Com o uso de procedimentos estatísticos de teste de hipóteses, a hipóte- 
se nula Hg foi rejeitada. O estudo produziu evidências estatísticas que dão suporte a H, e à conclusão segundo 
a qual o produto da Morrell é o preferido por mais de 50% da população consumidora. К 

A estimação por ponto da proporção populacional foi p = 150/224 = 0,67. Desse modo, os dados d 
amostra fomeceram o suporte para que a empresa promovesse um anüncio de revista mostrando que, em 
uma comparação do sabor de três produtos, o Convenient Cuisine Beef Pot Roast, da Morrell, “obtinha uma 
preferéncia de 2 por | sobre a concorréncia". 

Neste capítulo, discutiremos como formular hipóteses e como realizar testes idénticos ao que é utilizado 
pela Morrell. Por meio de análise dos dados amostrais seremos capazes de determinar se a hipótese deve ou 
não ser rejeitada, 


Nos Capítulos 7 e 8, informamos como uma amostra pode ser usada para desenvolver estimações por 
ponto e por intervalo dos parâmetros populacionais. Neste capítulo, prosseguiremos a discussão da infe- 
rência estatística, mostrando como o teste de hipóteses pode ser usado para determinar se uma afirmação 
sobre o valor de um parâmetro populacional deve ou não ser rejeitada. 

Ao testar hipóteses, iniciamos por criar uma hipótese experimental a respeito de um parâmetro da 
população. Essa hipótese experimental é chamada hipótese nula. Ela é denotada por Но. Definimos, então, 
outra hipótese, denominada hipótese alternativa, a qual é o oposto daquilo que é formulado na hipótese 
nula. A hipótese alternativa é denotada por H,. O procedimento de teste de hipóteses usa dados de uma 
amostra para testar as duas afirmações antagônicas, indicadas por H e H,- 

Este capítulo mostra como se pode realizar testes de hipóteses a respeito de uma média populacional e 
de uma proporção populacional. Iniciaremos apresentando exemplos que ilustram critérios para o desen- 
volvimento das hipóteses nula e alternativa. 


9.1 COMO DESENVOLVER AS HIPÓTESES NULA E ALTERNATIVA 


Em algumas aplicações pode não ser claro à primeira vista como as hipóteses nula e alternativa devem ser 
formuladas. Deve-se tomar cuidado para estruturar as hipóteses de maneira apropriada a fim de que a con- 
clusão do teste de hipóteses produza a informação que o pesquisador ou o tomador de decisão desejam. 
Diretrizes para estabelecer as hipóteses nula e alternativa serão dadas para três tipos de situação nas quais 
comumente se empregam procedimentos de teste de hipóteses. 


Como Testar Hipóteses de Pesquisa 


Considere um modelo de automóvel em particular que atinge atualmente a eficiência média de 10,21 km/L 
em termos de consumo de combustível. Uma equipe de pesquisa de produto desenvolveu um novo siste- 
ma de injeção de combustível projetado especificamente para aumentar a taxa de quilômetros por litro. 
Para avaliar o novo sistema, diversas unidades serão produzidas, instaladas em automóveis e submetidas a 
testes de direção controlados. Aqui, a equipe de pesquisa de produto está à procura de comprovação de que 
o novo sistema aumenta a taxa média de quilômetros por litro. Nesse caso, a hipótese de pesquisa é que o 
novo sistema de injeção de combustível produzirá uma taxa média de quilômetros por litro superior a 
10,21; ou seja, p > 10,21. Como diretriz geral, uma hipótese de pesquisa deve ser formulada como a hipó- 
tese alternativa. Portanto, as hipóteses nula e alternativa relativas ao estudo são: 


Ho p = 10,21 
H; u > 1021 


Capítulo 9 Testes de Hipóteses 


Se os resultados da amostra indicarem que H não pode ser rejeitada, os pesquisadores não poderão con- 
cluir que o novo sistema de injeção de combustível é melhor. Talvez, mais pesquisas e testes subseqüen- 
tes devam ser realizados. Entretanto, se os resultados da amostra indicarem que H pode ser rejeitada, os 
pesquisadores poderão inferir que H,: 4 > 10,21 é verdadeira. Com essa conclusão, os pesquisadores 
obtêm a base estatística necessária para afirmar que o novo sistema aumenta o número médio de quilôme- 
tros por litro. Portanto, a produção com o novo sistema deve ser considerada. 

Em estudos de pesquisa desse tipo, as hipóteses nula e alternativa devem ser formuladas de tal manei- 
ra que a rejeição de Ho corrobore a conclusão da pesquisa. As hipóteses de pesquisa, portanto, devem ser 
expressas como a hipótese alternativa. 


Como Testar a Validade de uma Afirmação 


Como uma ilustração do teste de validade de uma afirmação, considere a situação em que um fabricante 
de refrigerantes declara que os frascos de dois litros dos seus produtos contêm, no mínimo, uma média de 
1,99 L. Uma amostra de frascos de dois litros será selecionada e o conteúdo, medido, para testar a afirma- 
ção do fabricante. Nesse tipo de teste de hipóteses, geralmente presumimos que a afirmação do fabrican- 
te é verdadeira, a menos que a evidência da amostra seja contraditória. Usando esse critério no exemplo 
dos frascos de refrigerante, afirmaríamos que as hipóteses nula e alternativa são as seguintes: 


Ho: и = 1,99 
Hy и < 1,99 


Se os resultados da amostra indicarem que Но não pode ser rejeitada, a afirmação do fabricante não será 
contestada. Entretanto, se os resultados da amostra indicarem que Н pode ser rejeitada, a inferência é que 
Н: u < 1,99 é verdadeira. Com essa conclusão, a evidência estatística indica que a afirmação do fabrican- 
te é incorreta e que os frascos de refrigerante sáo preenchidos com uma média menor que a anunciada 
quantidade de 1,99 L. As medidas cabíveis contra o fabricante devem ser consideradas. 

Em situações que envolvem testar a validade de uma afirmação, a hipótese nula geralmente se baseia 
no pressuposto de que a afirmação é verdadeira. A hipótese alternativa é então formulada a fim de que a 
rejeição de Ну produza a evidência estatística de que a hipótese declarada é incorreta. Iniciativas para cor- 
rigir a afirmação devem ser consideradas sempre que H for rejeitada. 


Como Testar em Situações de Tomada de Decisão 


Quando se testam hipóteses de pesquisa ou a validade de uma afirmação, as providências necessárias são 
postas em prática se Ho for rejeitada. Em muitos casos, no entanto, devem-se tomar providências tanto 
quando Ho não pode ser rejeitada como quando Но pode ser rejeitada. Em geral, esse tipo de situação ocor- 
re quando um tomador de decisão precisa escolher entre dois cursos de ação: um associado à hipótese nula 
e outro, à hipótese alternativa. Por exemplo, considerando uma amostra de peças de uma remessa recém- 
recebida, um inspetor de controle da qualidade precisa decidir se aceitará a remessa ou se a devolverá ao 
fornecedor porque ela não cumpre as especificações. Suponha que as especificações de uma peça em par- 
ticular exijam um tamanho médio de duas polegadas por peça. Se o tamanho médio for maior ou menor 
que o padrão de duas polegadas, as peças causarão problemas de qualidade na operação de montagem. 
Nesse caso, as hipóteses nula e alternativa serão formuladas da seguinte maneira: 


Hyu2 
Нии #2 


Se os resultados da amostra indicarem que Но não pode ser rejeitada, o inspetor de controle da qualidade 
não terá nenhuma razão para duvidar de que a remessa esteja de acordo com as especificações, e a remes- 
sa será aceita. Entretanto, se os resultados da amostra indicarem que Н deve ser rejeitada, a conclusão será 
de que as peças não cumprem as especificações. Nesse caso, o inspetor de controle da qualidade terá sufi- 
cientes evidências para devolver a remessa ao fornecedor. Desse modo, vemos que para esses tipos de 
situação, providências devem ser tomadas tanto quando Не não pode ser rejeitada como quando Но pode 
ser rejeitada. 


Resumo das Formas das Hipóteses Nula e Alternativa 


Os testes de hipóteses deste capítulo envolvem dois parâmetros populacionais: a média populacional e a 
proporção populacional. Dependendo da situação, o teste de hipóteses a respeito de um parâmetro popu- 
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lacional pode assumir uma das três formas possíveis: duas delas usam desigualdades na hipótese nula; a 
terceira utiliza uma igualdade na hipótese nula. Em relação aos testes de hipóteses, que envolvem uma 
média populacional, admitimos que о denota o valor hipotético, e então precisamos escolher uma das três 
formas seguintes para o teste da hipótese: 


Hy: u >и0 Нұн = u0 Hy: y = u0 
Hyu < uo Hx u > yuo Hu + но 


Por razões que se tornarão claras adiante, as duas primeiras formas são chamadas testes unicaudais. A 
terceira forma é denominada teste bicaudal. 

Em muitas situações, a escolha de Нуе Н, não é clara, e é necessário discernimento para selecionar а 
forma apropriada. Entretanto, como mostram as formas apresentadas anteriormente, o termo de igualdade 
(=, < ou =) sempre aparece na hipótese nula. 

Ao selecionar a forma apropriada de H, e H,, tenha em mente que a hipótese alternativa freqüentemen- 
te é aquilo que o teste tenta estabelecer. Portanto, perguntar se o usuário está à procura de evidências que 
apóiem au < до, д > Ho OU H $ to ajudará a determinar H,. Os exercícios a seguir foram idealizados para 
que você adquira prática na escolha da forma apropriada do teste de hipóteses envolvendo uma média 
populacional. 


Exercícios 


1. O gerente do Danvers-Hilton Resort Hotel afirmou que o valor médio da conta dos hóspedes em um 
final de semana é igual a US$ 600 ou menos. Um membro da equipe de contabilidade do hotel obser- 
vou que o total cobrado nas contas dos hóspedes se elevou nos últimos meses. O contador usará uma 
amostra de contas de hóspedes em fins de semana para testar a afirmação do gerente. 


a. Qual forma de hipótese deve ser usada para testar a afirmação do gerente? Explique. 
Ho: и = 600 Ho: и = 600 Ho: и = 600 
Hy u < 600 Hy u > 600 Нұ и + 600 

b. Qual conclusão é apropriada quando Ho não pode ser rejeitada? 

c. Qual conclusão é apropriada quando Но pode ser rejeitada? 


2. O gerente de uma concessionária de automóveis está pensando em um novo plano de bonificações 
para aumentar o volume de vendas. Atualmente, o volume médio de vendas é de 14 automóveis por 
mês. O gerente quer realizar um estudo e pesquisa para verificar se o novo plano de bonificações 
aumenta o volume de vendas. Para coletar dados sobre o plano, uma amostra da equipe de vendas será 
autorizada a vender sob o novo plano de bonificação durante o período de um mês. 


a. Desenvolva as hipóteses nula e alternativa mais apropriadas a essa situação de pesquisa. 
b. Comente a conclusão relativa a quando Не não pode ser rejeitada. 
с. Comente a conclusão relativa a quando Н pode ser rejeitada. 


3. Uma operação de linha de produção foi projetada para encher caixas de sabão em pó com um peso 
médio de 0,907 kg. Uma amostra das caixas é selecionada periodicamente e pesada para determinar 
se há a ocorrência de enchimentos abaixo ou acima do padrão. Se os dados da amostra levarem à con- 
clusão de que há enchimentos abaixo ou acima do padrão, a linha de produção será interrompida e 
ajustada para se obter o enchimento apropriado. 


a. Formule as hipóteses nula e alternativa que ajudem a decidir se a linha de produção deve ser inter- 
rompida e ajustada. 

b. Comente a conclusão e a decisão de quando Но não pode ser rejeitada. 

c. Comente a conclusão e a decisão de quando Но pode ser rejeitada. 


4. Em virtude do tempo e dos custos elevados de produção e transformação, um diretor de manufatura 


precisa convencer a administração de que um novo método de manufatura proposto reduz os custos, 
antes de o novo método ser implementado. O método de produção atual opera com um custo médio 
de US$ 220 por hora. Um estudo e pesquisa medirão o custo do novo método ao longo de um perío- 
do de produção amostral. 

a. Desenvolva as hipóteses alternativa e nula mais apropriadas a esse estudo. 

b. Comente a conclusão de quando Не não pode ser rejeitada. 

c. Comente a conclusão de quando Ho pode ser rejeitada. 


Capítulo 9 Testes de Hipóteses 


9.2 ERROS DO TIPO I E DO TIPO II 


As hipóteses nula e alternativa são afirmações excludentes a respeito da população. Ou a hipótese nula Ho 
é verdadeira ou a hipótese alternativa H, é verdadeira, mas não ambas. Idealmente, o procedimento de teste 
de hipóteses deve levar à aceitação de H quando Но é verdadeira, e à rejeição de Но quando H, é verda- 
deira. 


Tabela 9.1 Erros e conclusóes corretas no teste de hipóteses 


Situação da População 
Ho verdadeira H, verdadeira 
Aceitar Ho Conclusão Correta Erro do Tipo Il 
Conclusáo 
Rejeitar Ho Erro do Tipo | Conclusão Correta 


Infelizmente, as conclusões corretas nem sempre são possíveis. Uma vez que os testes de hipótese 
baseiam-se em informações de amostras, devemos admitir a possibilidade de erros. A Tabela 9.1 ilustra os 
dois tipos de erro que podem ser cometidos no teste de hipóteses. 

A primeira linha da Tabela 9.1 revela o que pode acontecer se a conclusão for aceitar Ho. Se Ho for ver- 
dadeira, essa conclusão está correta. Entretanto, se H, for verdadeira, cometemos um erro do Tipo II; ou 
seja, aceitamos H quando ela é falsa. A segunda linha mostra o que pode acontecer se a conclusão for 
rejeitar Hg. Se Но for verdadeira, cometemos um erro do Tipo I; ou seja, rejeitamos Ho quando ela é ver- 
dadeira. Entretanto, se Н, for verdadeira, rejeitar Ho será a ação correta. 

Lembre-se da ilustração do teste de hipótese discutida na Seção 9.1, na qual uma equipe de pesquisa 
de produtos automobilísticos desenvolveu um novo sistema de injeção de combustível projetado para 
aumentar a taxa de quilômetros por litro de um automóvel em particular. Com o modelo atual que obtém 
uma média de 10,21 quilômetros por litro, a hipótese foi formulada da seguinte maneira: 


Hy и = 10,21 
Hy и > 10,21 


A hipótese alternativa, H,: и > 10,21, indica que os pesquisadores estão à procura de evidências amos- 
trais que sustentem a conclusão de que a média populacional de quilômetros por litro com o novo sistema 
de injeção de combustível é superior a 10,21. 

Nessa aplicação, o erro do Tipo I de rejeitar Ho quando ela é verdadeira corresponde aos pesquisado- 
res afirmarem que o novo sistema melhora a taxa de quilômetros por litro (и > 10,21) quando, de fato, o 
novo sistema não é melhor que o sistema atual. Em contrapartida, o erro do Tipo П de aceitar Ho quando 
ela é falsa corresponde aos pesquisadores concluírem que o novo sistema não é melhor que o sistema atual 
(и = 10,21) quando, de fato, o novo sistema melhora o desempenho de quilômetros por litro. 

Em relação ao teste da taxa de quilômetros por litro, a hipótese nula é Ho: 4 = 10,21. Suponha que a 
hipótese nula seja verdadeira enquanto igualdade; ou seja, 4 = 10,21. A probabilidade de cometer um erro 
do Tipo I quando a hipótese nula é verdadeira é chamada nível de significância. Desse modo, em relação 
ao teste de hipóteses da taxa de quilômetros por litro, o nível de significância é a probabilidade de se rejei- 
tar Ho; и = 10,21 quando и = 10,21. Por causa da importância desse conceito, reformulamos agora a defi- 
nição de nível de significância. 


NÍVEL DE SIGNIFICÂNCIA 


О nível de significância é a probabilidade de cometermos um erro do Tipo I quando a hipótese nula é 
verdadeira enquanto igualdade. 


O símbolo grego a (alfa) é usado para denotar o nível de significância, e as escolhas habituais para a 
são 0,05 e 0,01. 

Na prática, a pessoa que realiza o teste de hipóteses especifica o nível de significância. Ao selecionar 
а, essa pessoa controla a probabilidade de cometer um erro do Tipo I. Se o custo de cometer um erro do 
Tipo I for alto, valores pequenos de a são preferíveis. Se o custo de cometer um erro do Tipo I não for 


313 


314 


Se os dados 
amostrais forem 
Coerentes com a 
hipótese nula Но, 
seguiremos a 
prática de optar 
pela conclusáo 
“não rejeitar Ho." 
Essa conclusão é 
preferível a "acei- 
tar Чо", porque a 
conclusão de 
aceitar Hg nos 
coloca em risco de 
cometer um erro 
do Tipo Il. 


AUTOTESTE 


Estatística Aplicada à Administração e Economia 


alto, valores maiores de a tipicamente são usados. Aplicações de testes de hipótese que somente contro- 
lam o erro do Tipo I freqüentemente são chamadas testes de significância. A maioria das aplicações de tes- 
tes de hipótese. é desse tipo. 

Não obstante as aplicações de testes de hipóteses controlem a probabilidade de cometer um erro do 
Tipo I, elas nem sempre controlam a probabilidade de se cometer um erro do Tipo II. Portanto, se decidi- 
mos aceitar Hy não poderemos determinar quão confiantes podemos estar a respeito dessa decisão. Em 
razão da incerteza associada à probabilidade de cometer um erro do Tipo II quando se realizam testes de 
significância, os estatísticos frequentemente recomendam que devemos usar a afirmação “não rejeitar Ho” 
em vez de “aceitar Ну”. O uso da afirmação “não rejeitar Ну” transmite a recomendação de se manter tanto 
o julgamento como a ação. Com efeito, ao não aceitar diretamente Но, o estatístico evita o risco de come- 
ter um erro do Tipo II. Quando quisermos que a probabilidade de cometer um erro do Tipo II não seja 
determinada e controlada, não faremos a afirmação “aceitar Но”. Nesses casos, somente duas conclusões 
são possíveis: não rejeitar Ну ou rejeitar Hy. Embora o controle de um erro do Tipo II em testes de hipó- 
teses não seja comum, ele pode ser feito. Livros mais avançados descrevem procedimentos para determi- 
nar e controlar a probabilidade de cometer um erro do Tipo П.* Se os controles apropriados tiverem sido 
estabelecidos para esse tipo de erro, ações baseadas na conclusão “aceitar Ho” podem ser apropriadas. 


Exercícios 


5. А Nielsen divulgou que os jovens dos Estados Unidos assistem a 56,2 minutos de TV diariamente no 
horário nobre (The Wall Street Journal Europe, 18 de novembro de 2003). Um pesquisador acredita 
que os jovens alemães do sexo masculino passam mais tempo assistindo à TV no horário nobre. Uma 
amostra de jovens da Alemanha será selecionada pelo pesquisador, e o tempo que eles passam assis- 
tindo à TV em um dia será registrado. Os resultados da amostra serão usados para testar as hipóteses 
nula e alternativa seguintes: 

Нуи = 562 

H; u 56,2 
a. Qual é o erro de Tipo I nessa situação? Quais são as conseqüências de cometer esse erro? 
b. Qual é o erro de Tipo II nessa situação? Quais são as conseqüências de cometer esse erro? 


6. O rótulo de um frasco de 2,83 litros de suco de laranja afirma que o suco de laranja contém em média 
1 grama ou menos de gordura. Responda às questóes a seguir considerando um teste de hipóteses que 
possa ser usado para testar a afirmacáo constante no rótulo. 


a. Desenvolva as hipóteses nula e alternativa apropriadas. 
b. Qual é o erro de Tipo I nessa situação? Quais são as conseqüéncias de cometer esse erro? 
c. Qual é o erro de Tipo II nessa situação? Quais são as conseqüéncias de cometer esse erro? 


7. А equipe de vendas da Carpetland atinge uma média de US$ 8 mil em vendas por semana. Steve 
Contois, o vice-presidente da firma, propôs um programa de remuneração com novos incentivos de 
vendas. Steve espera que os resultados de um período experimental de vendas lhe possibilitem con- 
cluir que o programa de remuneração aumenta a média de vendas por vendedor. 


a. Desenvolva as hipóteses nula e alternativa apropriadas. 
b. Qual é o erro de Tipo I nessa situação? Quais são as conseqüéncias de cometer esse erro? 
c. Qual é o erro de Tipo II nessa situação? Quais são as consequências de cometer esse erro? 


8. Suponha que um novo método de produção seja implementado se um teste de hipóteses sustentar a 
conclusão de que o novo método reduz a média de custo operacional por hora. 


a. Estabeleça as hipóteses nula e alternativa apropriadas considerando que o custo médio do método 
de produção atual seja igual a US$ 220 por hora. 

b. Qual é o erro de Tipo I nessa situação? Quais são as conseqüéncias de cometer esse erro? 

с. Qual é o erro de Tipo II nessa situação? Quais são as conseqüéncias de cometer esse erro? 


*Veja, por exemplo, Statistics for Business and Economics, 9. ed., de ANDERSON, D. R. et al. (Cincinnati: South-Western, 2005). 


Capítulo 9 Testes de Hipóteses 


9.3 MÉDIA DA POPULAÇÃO: o CONHECIDO 


No Capítulo 8, dissemos que o caso em que с é conhecido corresponde a aplicações nas quais dados his- 
tóricos ou outras informações estão disponíveis e que nos possibilitam obter uma boa estimativa do des- 
vio padrão da população antes da amostragem. Nesses casos, o desvio padrão da população pode, para 
todos os efeitos, ser considerado conhecido. Nesta seção, mostramos como realizar um teste de hipóteses 
sobre a média populacional, considerando o caso em que о seja conhecido. 

Os métodos apresentados nesta seção são exatos se a amostra for selecionada de uma população que 
está normalmente distribuída, Nos casos em que não é razoável supormos que a população esteja normal- 
mente distribuída, ainda assim esses métodos são aplicáveis se o tamanho da amostra for grande o bastan- 
te. Apresentamos alguns conselhos práticos referentes à distribuição populacional e ao tamanho da amos- 
tra no fim desta seção. 


Teste Unicaudal 


Os testes unicaudais sobre a média de uma população assumem uma das duas seguintes formas: 


Teste da Cauda Inferior Teste da Cauda Superior 
Не: и = цо Нуи = Ho 
Нед < до Hy H > до 


Consideremos um exemplo que envolve um teste da cauda inferior. 

A Federal Trade Commission (FTC) realiza, periodicamente, estudos estatísticos concebidos para tes- 
tar as afirmagóes feitas pelos fabricantes a respeito de seus produtos. Por exemplo, o rótulo de uma lata 
grande de Hilltop Coffee informa que a lata contém 3 libras (1,36 kg) de café. A FTC sabe que o proces- 
so de produção da Hilltop não consegue colocar exatamente 3 libras de café em cada lata, mesmo que o 
peso médio de enchimento da população de todas as latas cheias seja de, no mínimo, 3 libras por lata. 
Porém, contanto que o peso médio populacional seja de, no mínimo, 3 libras por lata, os direitos dos con- 
sumidores estarão garantidos. Desse modo, a FTC interpreta a informação contida no rótulo de uma lata 
grande de café como uma afirmação da parte da empresa Hilltop de que о peso médio populacional de 
enchimento é de, no mínimo, 3 libras por lata. Mostraremos como a FTC pode checar a afirmação da 
Hilltop realizando um teste de hipóteses da cauda inferior. 

A primeira etapa consiste em desenvolver as hipóteses nula e alternativa para o teste. Se o peso médio 
de enchimento da população for, no mínimo, 3 libras por lata, a afirmação da Hilltop está correta. Esse resul- 
tado estabelece a hipótese nula para o teste. Entretanto, se o peso médio da população for inferior a 3 libras 
por lata, a afirmação da Hilltop está incorreta. Esse resultado estabelece a hipótese alternativa. Com 4 deno- 
tando o peso médio de enchimento da população, as hipóteses nula e alternativa são as seguintes: 


Неги >=3 
Нии <3 


Observe que o valor hipotético da média populacional é до = 3. 

Se os dados amostrais indicarem que Но não pode ser rejeitada, as evidências estatísticas não susten- 
tarão a conclusão de que ocorreu uma informação falsa no rótulo. Portanto, nenhuma ação deve ser prati- 
cada contra a Hilltop. No entanto, se os dados amostrais indicarem que Не pode ser rejeitada, concluire- 
mos que a hipótese alternativa, H,: и < 3, é verdadeira. Nesse caso, a conclusão de que há um volume 
menor de envasilhamento e uma acusação de informação falsa no rótulo se justificariam contra a Hilltop. 

Suponha que uma amostra de 36 latas de café seja selecionada e que a média amostral X seja calcula- 
da como uma estimativa da média 4 da população. Se o valor da média populacional X for inferior a 
3 libras, os resultados da amostra lançarão dúvidas sobre a hipótese nula. O que queremos saber é a quan- 
tidade que X deve ser menor que 3 libras para nos dispormos a declarar que a diferença é significativa e 
arriscar-nos a cometer um erro do Tipo I ao acusar indevidamente a Hilltop de dar informagóes falsas no 
rótulo do produto. Um fator fundamental quando se trata dessa questão é o valor que o tomador de deci- 
são seleciona para o nível de significância. 

Conforme observamos na seção anterior, o nível de significância, denotado por a, é a probabilidade de 
se cometer um erro do Tipo I ao rejeitar Họ quando a hipótese nula é verdadeira enquanto igualdade. O 
tomador de decisão deve especificar o nível de significância. Se o custo de cometer um erro do Tipo I for 
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elevado, um valor pequeno deve ser escolhido para o nível de significância. Se o custo não for elevado, um 
valor maior é mais apropriado. No estudo do Hilltop Coffee, o diretor do programa de testes da FTC fez 
a seguinte afirmação: "Se a empresa está cumprindo suas especificações de peso, com и = 3, não quero 
mover nenhum processo contra eles. Não obstante, estou disposto a arriscar uma chance de 1% de come- 
ter esse erro”. Em função da afirmação do diretor, definimos o nível de significância para o teste da hipó- 
tese em a = 0,01. Desse modo, devemos projetar o teste da hipótese de forma que a probabilidade de 
cometermos um erro do Tipo I quando 4 = 3 seja 0,01. 

Quanto ao estudo do Hilltop Coffee, ao desenvolvermos as hipóteses nula e alternativa e especificar- 
mos o nível de significância para o teste, executamos as duas primeiras etapas necessárias à realização de 
todo teste de hipóteses. Agora, estamos preparados para executar a terceira etapa do teste de hipóteses: 
coletar os dados amostrais e calcular o valor daquilo que se denomina estatística de teste. 


Estatística de teste Em relação ao estudo do Hilltop Coffee, testes anteriores realizados pela FTC mostram 
que o desvio padrão da população pode ser considerado conhecido, sendo o valor de o = 0,18. Além disso, 
esses testes também mostram que se pode supor que a população de pesos de enchimento tenha uma distri- 
buição normal. Em razão do estudo das distribuições amostrais no Capítulo 7, sabemos que se a população 
da qual extraímos a amostra está normalmente distribuída, a distribuição amostral de x também estará nor- 
malmente distribuída. Assim, para o estudo do Hilltop Coffee, a distribuição amostral de x está normalmen- 
te distribuída. Com um valor conhecido de o = 0,18 e o tamanho amostral n = 36, a Figura 9.1 apresenta 
a distribuição amostral de x quando a hipótese nula é verdadeira enquanto igualdade; ou seja, quando 


H = шу = 3.º Note que o desvio padrão de x é dado por 0; = 0/Vn = 0,18/V36 = 0,03. 


Figura 9.1 Distribuição amostral de x no estudo do Hilltop Coffee quando a hipótese nula é verdadeira 
enquanto igualdade (и = ug = 3) k 


Distribuição amostral 
dex 


é uma distribuição normal padrão. Um valor de z = –1 significa que o valor de X está um erro padrão abai- 
xo do valor hipotético da média, z = —2 significa que o valor de x está dois erros padrão abaixo do valor 
hipotético da média e assim por diante. Podemos usar a tabela de distribuição normal padrão para encon- 
trar a probabilidade da cauda inferior correspondente a qualquer valor z. Por exemplo, a tabela normal 
padrão mostra que a área entre a média e z = —3,00 é 0,4987. Portanto, a probabilidade de se obter um valor 
de z que esteja três ou mais desvios padrão abaixo da média é 0,5000 — 0,4987 = 0,0013. Em conseqüén- 
cia, a probabilidade de se obter um valor de X que esteja três ou mais erros padrão abaixo da média popu- 
lacional hipotética до = 3 também é 0,0013. Esse resultado é improvável se a hipótese nula for verdadeira. 


* Ao construir distribuições amostrais para testes de hipótese, presume-se que Hg seja satisfeita enquanto igualdade. 


Capítulo 9 Testes de Hipóteses f od БИЧ 


Quanto aos testes de hipóteses sobre а média de uma população para о caso em que о é desconheci- 
do, usamos a variável aleatória z normal padráo como estatística de teste para determinar se X se desvia 
do valor hipotético и o suficiente para justificar a rejeição da hipótese nula. Com о; = о/ Vn, a estatística 
de teste utilizada no caso em que с é conhecido é a seguinte: 


ESTATÍSTICA DE TESTE PARA TESTES DE HIPÓTESE A RESPEITO DE UMA MÉDIA 
POPULACIONAL: с CONHECIDO É 


" "Lu. : 
| £e jn | (9.1) 

A questão fundamental relativa a um teste da cauda inferior é: quão pequena deve ser a estatística de 

teste z antes de optarmos por rejeitar a hipótese nula? Dois critérios podem ser utilizados para responder- 
‚тоз a essa questão. 

O primeiro critério usa o valor z da estatística de teste para calcular uma probabilidade denominada 
valor p. O valor p mede o suporte (ou a falta de suporte) que uma amostra dá à hipótese nula, e é a base 
para determinarmos se a hipótese nula deve ser rejeitada, dado o nível de significância. O segundo critério 
exige determinarmos em primeiro lugar um valor para a estatística de teste, chamado valor crítico. Para um 
teste da cauda inferior, o valor crítico vale como um ponto de referência para determinar se o valor da esta- 
tística de teste é pequeno o bastante рага н a hipótese nula. Iniciamos com o critério dò valor р? 


no (a EN 1 
Critério do valor p Na prática, o critério do valor p tornou-se o.método preferível para determinar se a 
hipótese nula pode ser rejeitada, especialmente quando se usam softwares como o Minitab e o Excel. Para 
iniciar nossa discussão do uso dos valores p no teste de hipóteses, apresentamos agora uma definição for- 


mal de um valor p. E š 2 


VALOR p Е 
О valor p é uma probabilidade, calculada usando-se a estatística de teste, que mede o apoio (ou a falta 
de apoio) proporcionado pela amostra à hipótese nula. 


Visto que o valor p é uma probabilidade, ele varia de 0 a 1. Em geral, quanto maior o valor p, mais 
suporte a estatística de teste dá à hipótese nula. No entanto, um valor p pequeno indica uma estatística de 
teste da amostra que é incomum, dada a suposição de que Но é verdadeira. Valores p pequenos levam à 
rejeição de Ну, ao passo que valores p grandes indicam que a hipótese nula não deveria ser rejeitada. 

Duas etapas são necessárias para usarmos o critério do valor p. Primeiro, devemos usar o valor da esta- 
tística de teste para calcular o valor p. O método usado para calcular o valor p depende de o teste ser da 
cauda inferior, da cauda superior ou bicaudal. Em relação a um teste da cauda inferior, o valor p é a pro- 
babilidade de obtermos um valor para a estatística de teste tão pequeno ou menor que aquele produzido 
pela amostra. Desse modo, para calcular o valor p relativo ao teste da cauda inferior no caso em que o é 
conhecido, devemos encontrar a área sob a curva normal padráo à esquerda da estatística de teste. Depois 
de calcular o valor p, precisamos entáo decidir se ele é pequeno o bastante para rejeitar a hipótese nula; 
conforme veremos, essa decisão envolve comparar o valor p com o nível de significância. 

Agora, vamos ilustrar o critério do valor p calculando o valor p do teste da cauda inferior para o Hilltop 
Coffee. Suponha que a amostra de 36 latas de café Hilltop produza uma média amostral x = 2,92. Seria 
X = 2,92 pequena o bastante para nos fazer rejeitar Н? Desde que se trate de um teste da cauda inferior, 
o valor p é a área sob a curva normal padrão à esquerda da estatística de teste. Usando X = 2,92,0 = 0,18 
en = 36, calculamos o valor z da estatística de teste. 


$-uQ 292-3 
o/Yn  018/V36 


z 2,67 


Dessa forma, o valor p é a probabilidade de a estatística de teste z ser menor ou igual a 2,67 (a área 
Sob a curva normal padráo à esquerda da estatística de teste). A 

Usando a tabela de distribuição normal padrão, descobrimos que a área entre a média ez= 112 ,67 é 
0,4962. Assim, o valor p é 0,5000 — 0,4962 — 0,0038. A Figura 9.2 mostra que ï= 2 92 corresponde a 2 
= —2,67 e a um valor p = 0,0038. Esse valor p indica uma pequena probabilidade 'dé se obter uma média 
amostral X = 2,92 (e uma estatística de teste igual a —2,67) ou menor quando se extrai a amostra de uma 
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população com и = 3. Esse valor p não dá um apoio muito consistente à hipótese nula, mas ele é peque- 
no o bastante para nos fazer rejeitar Ho? А resposta depende do nível de significância do teste. 

Conforme observamos anteriormente, o diretor do programa de testes da FTC selecionou um valor igual 
a 0,01 para o nível de significância. A escolha de a = 0,01 significa que o diretor está disposto a aceitar uma 
probabilidade de-0,01 de rejeitar a hipótese nula quando ela for verdadeira enquanto igualdade (ug = 3). А 
amostra de 36 latas de café no estudo do Hilltop Coffee resultou em um valor p = 0,0038, o que significa 
que a probabilidade de se obter um valor X = 2,92 ou menor quando a hipótese nula for verdadeira enquan- 
to igualdade é 0,0038. Uma vez que 0,0038 é menor ou igual a a = 0,01, rejeitamos Ho. Portanto, encontra- 
mos suficientes evidências estatísticas para rejeitar a hipótese nula dado o nível de significância de 0,01. 

Agora, podemos formular a regra para determinar se a hipótese nula pode ser rejeitada quando se usa 
o critério do valor p. Para um nível de significância a, a regra de rejeição, quando se usa o critério do valor 
р, é a seguinte: 


REGRA DE REJEIÇÃO QUANDO SE USA O VALOR p 
Rejeitar Не se o valor p = а 
No teste do Hilltop Coffee, o valor p igual a 0,0038 resultou na-rejeição da hipótese nula. Embora o fun- 
damento para tomar a decisão de rejeitar envolva uma comparação do valor p com o nível de significância 


especificada pelo diretor da FTC, o valor p observado de 0,0038 significa que rejeitaríamos Ну para qual- 
quer valor a = 0,0038. Por esse motivo, o valor p também é chamado nível observado de significância. 


Figura 9.2 Valor p para o estudo do Hiltop Coffee quando x = 2,92 e z = -2,67 


Distribuição amostral 
dex 


Distribuição amostral 
dez = 2-3 
0,03 


valor p = 0,0038 


Diferentes tomadores de decisão podem exprimir diferentes opiniões quanto ao custo de cometer um 
erro do Tipo I e podem escolher um nível de significância diferente. Ao apresentar o valor p como parte 
dos resultados de testes de hipótese, outro tomador de decisão pode comparar o valor p relatado com o seu 
próprio nível de significância e tomar uma decisão diferente no que diz respeito a rejeitar Hy. 


Capítulo 9 Testes de Hipóteses 


Critério do valor crítico Para um teste da cauda inferior, o valor crítico é o valor da estatística de teste 
que corresponde a uma área de a (о nível de significância) localizada na cauda inferior da distribuição 
amostral da estatística de teste. Em outras palavras, o valor crítico é o maior valor da estatística de teste 
que resultará na rejeição da hipótese nula. Vamos retornar ao exemplo do Hilltop Coffee e verificar como 
funciona essa abordagem. 

No caso em que с é conhecido, a distribuição amostral z da estatística de teste é uma distribuição nor- 
mal padrão. Portanto, o valor crítico é o valor da estatística de teste que corresponde a uma área a = 0,01 
na cauda inferior de uma distribuição normal padrão. Usando a tabela de distribuição normal padrão, desco- 
brimos que z = -2,33 produz uma área igual a 0,01 na cauda inferior (veja a Figura 9.3). Desse modo, se а 
amostra resultar em um valor da estatística de teste que seja menor ou igual a —2,33, o valor p corresponden- 
te será menor ou igual a 0,01; nesse caso, deveríamos rejeitar a hipótese nula. Portanto, para o estudo do 
Hilltop Coffee, a regra de rejeição pelo critério do valor crítico com um nível de significância de 0,01 é 


Rejeitar Но se 2 = —2,33 


Figura 9.3 Valor crítico = -2,33 para o teste de hipóteses do Hilltop Coffee 
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No exemplo do Hilltop Coffee, x = 2,92 e a estatística de teste 6 z = —2,67. Uma vez que z = —2,67 < 
—2,33, podemos rejeitar Но e concluir que a empresa Hilltop Coffec está preenchendo as Jatas com um 
volume menor. 

Podemos generalizar a regra de rejeição pelo critério do valor crítico para manipular qualquer nível de 
significância. A regra de rejeição para um teste da cauda inferior é a seguinte: 


e DE REJEIÇÃO PARA UM TESTE DA CAUDA INFERIOR: CRITÉRIO DO VALOR 
CRÍTICO 


Rejeitar Hg sez = -za 
em que —, é o valor crítico; ou seja, o valor que produz uma área a na cauda inferior da distribuição 
normal padráo. 


O critério do valor p para testes de hipótese e o critério do valor crítico sempre levarão à mesma deci- 
são de rejeição; ou seja, quando se quer que o valor p seja menor ou igual a a, o valor da estatística de 
teste será menor ou igual ao valor crítico. A vantagem do critério do valor p é que o valor p nos diz quão 
significativos são os resultados (o nível observado de significância). Quando usamos o critério do valor 
crítico, sabemos que os resultados são significativos ao nível declarado de significância. 

Há procedimentos computadorizados de teste de hipóteses que fornecem o valor p, de forma que este 
está se tornando rapidamente o método preferido de realizar testes de hipóteses. Se não tiver acesso a um 
computador, talvez você prefira usar o critério do valor crítico. Para algumas distribuições de probabilida- 
de é mais fácil usar tabelas estatísticas para encontrar um valor crítico do que usar as tabelas para calcu- 
lar o valor p. Esse tópico será discutido com mais detalhes na próxima seção. Н 

No início desta seção, dissemos que os testes unicaudais a respeito de uma média populacional assu- 
mem uma das duas seguintes formas: 
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Teste da Cauda Inferior Teste da Cauda Superior 
Ho: и 2 цо Не: и © ш 
Hy H < ду Hy и >ш 


Usamos o estudo do Hilltop Coffee para ilustrar como realizar um teste da cauda inferior. Podemos 
usar o mesmo critério geral para realizar um teste da cauda superior. А estatística de teste z ainda é calcu- 
lada usando-se a Equacáo 9.1. Porém, para um teste da cauda superior, o valor p é a probabilidade de obter 
um valor para a estatística de teste que seja tão grande ou maior que aquele que é produzido pela amostra. 

Desse modo, para calcular um valor p para o teste da cauda superior no caso em que o é conhecido, 
devemos encontrar uma área sob a curva normal padrão à direita da estatística de teste. O uso do critério 
do valor crítico faz que rejeitemos a hipótese nula se o valor da estatística de teste for maior ou igual ao 
valor crítico 2; em outras palavras, rejeitamos Ho se z = Zy 


Teste Bicaudal 


Nos testes de hipótese, a regra para um teste bicaudal a respeito de uma média populacional é expressa 
da seguinte maneira: 


Ho: H = Ho 
Hy и # uo 


Nesta subsecáo, mostramos como realizar um teste bicaudal a respeito de uma média populacional para o 
caso em que o é conhecido. Como ilustração, considere a situação de teste de hipóteses enfrentada pela 
MaxFlight, Inc. 

A. U.S. Golf Association (USGA) estabelece normas que os fabricantes de equipamentos de golfe 
devem cumprir para que seus produtos aceitos e usados nos eventos da USGA. A MaxFlight utiliza um 
processo de manufatura de alta tecnologia para produzir bolas de golfe que atingem uma distância média 
de arremesso (driving distance) de 295 jardas (269,7 m). Às vezes, porém, o processo se desajusta e pro- 
duz bolas de golfe que atingem uma distância média de arremesso diferente de 295 jardas. Quando a dis- 
tância média cai abaixo de 295 jardas, a empresa se preocupa em perder vendas pelo fato de as bolas de 
golfe não atingirem a distância anunciada, Quando a distância média passa de 295 jardas, as bolas de golfe 
da MaxFlight podem ser rejeitadas pela USGA em virtude de excederem o padrão de distância total refe- 
rente ao carry and ғой! 

O programa de controle da qualidade da MaxFlight envolve extrair amostras periódicas de 50 bolas de 
golfe para monitorar o processo de manufatura. Para cada amostra, é realizado um teste de hipóteses com 
о objetivo de determinar se o processo se desajustou. Vamos desenvolver as hipóteses nula e alternativa. 
Iniciamos, supondo que o processo, esteja funcionando corretamente; ou seja, as bolas de golfe que são 
produzidas atingem uma distância média de 295 jardas. Essa suposição estabelece a hipótese nula. A hipó- 
tese alternativa é que a distância média não é igual a 295 jardas. Com um valor hipotético de gy = 295, 
as hipóteses nula e alternativa do teste de hipóteses da MaxFlight são as seguintes: 


Hy u = 295 
Hy u + 295 


Se a média amostral X for significativamente menor que 295 jardas ou significativamente maior que 
295 jardas, rejeitaremos Ho. Nesse caso, serão tomadas medidas corretivas para ajustar o processo de 
manufatura. No entanto, se x não se desviar da média hipotética ио = 295 em termos de um valor signifi- 
cativo, Но não será rejeitada e nenhuma ação será encaminhada para ajustar o processo de manufatura. 

A equipe de controle da qualidade selecionou @ = 0,05 como o nível de significância para o teste. 
Dados de testes anteriores, realizados quando se sabia que o processo estava devidamente ajustado, mos- 
tram que se pode presumir que o desvio padrão da população seja conhecido, tendo o valor o = 12. Desse 
modo, com um tamanho de amostra n = 50, o desvio padrão de x é: 


INT: Carry and roll — Muitas tacadas de golfe fazem a bola viajar pelo ar (carry) e rolar (roll) certa distância. A distância total per- 
corrida pela bola nesse processo denomina-se carry and roll (Golfe). 
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Uma vez que o tamanho da amostra é grande, o teorema do limite central (veja o Capítulo 7) nos permite 
concluir que a distribuição amostral de x pode ser aproximada por uma distribuição normal. 

A Figura 9.4 apresenta a distribuição amostral de X referente ao teste de hipóteses da MaxFlight, con- 
siderando uma média populacional hipotética de д = 295. 

Suponha que uma amostra de 50 bolas de golfe seja selecionada e que a média da amostra seja 
X = 297,6 jardas. Essa média amostral sustenta a conclusão de que a média populacional é maior que 295 
jardas. Esse valor de X é suficientemente maior que 295 para nos fazer rejeitar H ao nível de significân- 
cia 0,05? Na seção anterior, descrevemos dois critérios que podem ser usados para responder a essa per- 
gunta: o critério do valor p e o critério do valor crítico. 


Critério do valor p Lembre-se de que o valor p é uma probabilidade, calculada usando-se a estatística de 
teste, para medir o apoio (ou a falta de apoio) que a amostra dá à hipótese nula. Em um teste bicaudal, 
valores da estatística de teste que se encontram em qualquer uma das caudas indicam falta de suporte à 
hipótese nula. Em um teste bicaudal, o valor p é a probabilidade de se obter um valor para a estatística de 
teste tão ou mais improvável do que aquele que é fornecido pela amostra. Vejamos como o valor p é cal- 
culado para o teste de hipóteses da MaxFlight. 

Primeiramente, calculamos o valor da estatística de teste. Para o caso em que с é conhecido, a estatís- 
tica de teste z é uma variável aleatória normal padrão. Usando a Equação 9.1 com X = 297,6, o valor da 
estatística de teste é: 


Qo Ж-до _ 2916 295 
o/vn 12/V50 


1,53 


Agora, para calcular o valor p, devemos encontrar a probabilidade de obtermos um valor para a estatísti- 
ca de teste que seja, no mínimo, tão improvável quanto z = 1,53. Evidentemente, valores de z = 1,53 são, 
no mínimo, tão improváveis quanto esse valor, Porém, já que este é um teste bicaudal, valores de z = —1,53 
também são, no mínimo, tão improváveis quanto o valor da estatística de teste fornecido pela amostra. 
Consultando a Figura 9.5, notamos que o valor р bicaudal, nesse caso, é dado por P(z = —1,53) + P(z = 
1,53). Uma vez que a curva normal é simétrica, podemos calcular essa probabilidade encontrando a área 
Sob a curva normal padrão à direita de z = 1,53 e a duplicando. A tabela da distribuição normal padrão 
mostra que a área entre a média e z = 1,53 é 0,4370. Assim, a área sob a curva normal padrão à direita da 
estatística de teste z = 1,53 é 0,5000 — 0,4370 = 0,0630. Duplicando esse valor, descobrimos que o valor 
p para o teste de hipótese bicaudal da MaxFlight é valor p = 2(0,0630) = 0,1260. 

Em seguida, comparamos o valor p com o nível de significância para verificar se a hipótese nula deve- 
ria ser rejeitada. Com um nível de significância а = 0,05, não rejeitamos Н, porque o valor p = 0,1260 
> 0,05. Desde que a hipótese nula não seja rejeitada, nenhuma ação será tomada para ajustar o processo 
de manufatura da MaxFlight. 


Figura 9.4 Distribuição amostral de X para o teste de hipóteses da MaxFlight 


Distribuição amostral 
dex 
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Figura 9.5 Valor р do teste de hipóteses da MaxFlight 


valor p = 2(0,0630) = 0,1260 


O cálculo do valor p de um teste bicaudal pode parecer um pouco confuso em comparação com o cál- 
culo do valor p de um teste unicaudal, Entretanto, ele pode ser simplificado pelas três etapas seguintes: 


1. Calcule o valor da estatística de teste z. 


2. Se o valor da estatística de teste estiver na cauda superior (z > 0), encontre а área sob a curva nor- 
mal padráo à direita de z. Se o valor da estatística de teste estiver na cauda inferior, encontre a área 
da curva normal padráo à esquerda de z. 


3. Duplique a área da cauda, ou probabilidade, obtida na etapa 2 para obter o valor p. 


Na prática, o cálculo do valor p é feito automaticamente quando se usa softwares como o Minitab ou o 
Excel. Por exemplo, a Figura 9.6 mostra a saída de dados (output) do Minitab relativa ao teste de hipóteses 
da MaxFlight. A média amostral X = 297,6, a estatística de teste z = 1,53 e o valor p = 0,126 estão em des- 
taque. O procedimento passo a passo para obter a saída de dados do Minitab é descrito no Apéndice 9.1. 


Critério do valor crítico Antes de sairmos desta seção, vejamos como a estatística de teste z pode ser 
comparada com um valor crítico para se tomar a decisáo do teste de hipóteses referente a um teste bicau- 
dal. A Figura 9.7 indica que os valores críticos do teste ocorreráo tanto na cauda inferior quanto na cauda 
superior da distribuição normal padrão. Com um nível de significância a = 0,05, a área em cada cauda, 
além dos valores críticos, é а/2 = 0,05/2 = 0,025. Usando a tabela de áreas da distribuição normal padrão, 
descobrimos que os valores críticos da estatística de teste são —9055 = —1,96 е 20,025 = 1,96. 


Figura 9.6 Saída de dados do Minitab relativa ao teste de hipóteses da MaxFlight 


Test of mu = 295 vs not = 295 
The assumed sigma - 12 


Variable N Mean StDev SE Mean 
Yards 50 297.600 11.297 1.697 

2 5 P 
11.53 0.126 


Variable 95.0$ CI 
Yards (294.274, 300.926) 
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Figura 9.7 Valores críticos relativos ao teste de hipóteses da MaxFlight 


Área = 0,025 Área = 0,025 


2 


-1,96 0 1,96 


Rejeitar Ho [Rae Ho 


Desse modo, usando-se o critério do valor crítico, a regra de rejeição bicaudal é: 
Rejeitar Не зе z = —1,96 ou se 2 1,96 


Uma vez que o valor da estatística de teste do estudo da MaxFlight é z — 1,53, a evidéncia estatística 
nào nos permitirá rejeitar a hipótese nula ao nível de significáncia 0,05. 


Resumo e Conselho Prático 


Apresentamos exemplos de teste da cauda inferior e da cauda superior a respeito de uma média popula- 
cional. Baseando-se nesses exemplos, agora podemos resumir os procedimentos de teste de hipóteses a 
respeito de uma média populacional para o caso em que o é conhecido, como mostra a Tabela 9.2. Observe 
que ио é o valor hipotético da média populacional. 

As etapas de teste de hipóteses seguidas nos dois exemplos exibidos nesta seção são comuns a todo 
teste de hipóteses. 


ETAPAS DO TESTE DE HIPÓTESES 


Etapa 1. Desenvolver as hipóteses nula e alternativa. 
Etapa 2. Especificar o nível de significância. 
Etapa 3. Coletar os dados da amostra e calcular o valor da estatística de teste. 


Critério do valor p 


Etapa 4. Usar o valor da estatística de teste para calcular o valor p. 
Etapa 5. Rejeitar Не se o valor p = a. 


Critério do valor crítico 


Etapa 4. Usar o nível de significância para estabelecer o valor crítico e o valor de rejeição. 
Etapa 5. Usar o valor da estatística de teste e a regra de rejeição para determinar se é oportuno rejei- 
tar Ho. 
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Tabela 9.2 Resumo dos testes de hipótese a respeito de uma média populacional: caso em que © é conhecido 


Teste da Cauda Inferior Teste da Cauda Superior Teste Bicaudai 
ipó Hy 4 = д He = д Ho 4 = до 
Hipótese 0 9 9 ? 
Р Нер < Ho Ha u > Ho Hy H É Ho 
Lu =R-Ho х-ро „Аг 
Estatística de Teste Zn Zan” zNRO 
Regra de Rejeicáo: Rejeitar Но se Rejeitar Ho se Rejeitar Но se 
Critério do Valor p ovalorp sa ovalorp = a ovalorp = а 
Regra de Rejeição: Rejeitar Ho se Rejeitar Ho se Rejeitar Н, se 
Critério do Valor 25-2, zzz, ZE zap 
Crítico OU SE Z X Zap 


O conselho prático sobre o tamanho da amostra para testes de hipótese é idêntico àquele que apresen- 
tamos acerca do tamanho da amostra para estimação de intervalos no Capítulo 8. Na maioria das aplica- 
ções, um tamanho de amostra п = 30 é adequado quando se usa o procedimento de teste de hipóteses des- 
crito nesta seção. Nos casos em que o tamanho da amostra é inferior a 30, a distribuição da população da 
qual extraímos a amostra torna-se um fator importante. Se a população está normalmente distribuída, o 
procedimento de teste de hipóteses que acabamos de descrever é exato e pode ser usado para qualquer 
tamanho de amostra. Se a população não está normalmente distribuída, mas é pelo menos aproximadamen- 
te simétrica, pode-se esperar que tamanhos de amostras pequenos, até mesmo iguais a 15, produzam resul- 
tados aceitáveis. Com tamanhos de amostra menores, o procedimento desse teste de hipóteses mostrado 
nesta seção somente será usado se o analista acreditar, ou estiver disposto a assumir, que a população está 
pelo menos aproximadamente distribuída. 


Relação entre a Estimação por Intervalo e o Teste de Hipóteses 


Encerramos esta seção discutindo a relação entre a estimação por intervalo e o teste de hipóteses. No 
Capítulo 8, mostramos como desenvolver uma estimação por intervalo de confiança de uma média popu- 
lacional. Para o caso em que s é conhecido, a estimação por intervalo de confiança de uma média popula- 
cional correspondente a um coeficiente de confiança 1 — a é dada por: 


(9.2) 


z+, 4 

X = 20077 

a/2 vn 

A realização de um teste de hipóteses requer que desenvolvamos primeiro as hipóteses a respeito do 

valor de um parâmetro populacional. No caso de uma média populacional, o teste bicaudal assume a 
forma: 


Ho: и = Ho 
Hy д É до 


em que до é o valor hipotético da média da população. Utilizando o critério do valor crítico bicaudal, não 
rejeitamos Ho para valores da média amostral X que estão dentro dos intervalos de erro padrão -zap e Zap 
de ро. Desse modo, a região “não rejeitar” da média amostral x em um teste de hipóteses bicaudal com um 
nível de significância a é dada por: 


с 
Ho E “ane (9.3) 


Um exame mais cuidadoso das Equações 9.2 e 9.3 fornece subsídios para que se possa compreender а 
relação entre os critérios de estimação e testes de hipóteses com a inferência estatística. Observe, em espe- 
cial, que ambos os procedimentos requerem o cálculo dos valores Zap е 0/Vn. Concentrando-se em а, 
notamos que o coeficiente de confiança (1 ~ а) da estimação por intervalo corresponde a um nível de sig- 
nificância a no teste de hipóteses. Por exemplo, um intervalo de confiança de 95% corresponde a um nível 
de significância de 0,05 para o teste de hipóteses. Além disso, as Equações 9.2 e 9.3 mostram que, desde 
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que Zaz (c/Vn) é o valor positivo (mais) ou negativo (menos) de ambas as expressões, se X estiver na 
região “não rejeitar” definida pela Equação 9.3, o valor hipotético и estará no intervalo de confiança defi- 
nido pela Equação 9.2. Inversamente, se o valor hipotético ио estiver no intervalo de confiança definido 
pela Equação 9.2, a média amostral X estará na região “não rejeitar” da hipótese Ho: и — ио, conforme é 
definido pela Equação 9.3. Essas observações acarretam o seguinte procedimento para se usar um interva- 


lo de confiança a fim de realizar um teste bicaudal. 


CRITÉRIO DO INTERVALO DE CONFIANÇA PARA TESTAR UMA HIPÓTESE DA FORMA 
Ho: M = иу 
Нен É Ho 
1, Selecione uma amostra aleatória simples da população e use o valor da média amostral X para desen- 
volver o intervalo de confiança da média populacional т. 


"M б 
х аут 


2. Se o intervalo de confiança contiver o valor hipotético до, não rejeite Ho. Caso contrário, rejeite Ho. 


Retornemos ao teste de hipóteses da MaxFlight, o qual resultou no seguinte teste bicaudal: 


Hg и = 295 
Ну: и = 295 
Para testar essa hipótese com um nível de significância а = 0,05, extraímos uma amostra de 50 bolas 
de golfe e encontramos uma distância média amostral X = 297,6 jardas. Lembre-se de que o desvio padrão 


populacional o = 12. Usando esses resultados com z9,025 = 1,96, descobrimos que a estimação por inter- 
valo de confiança de 95% da média populacional é: ` 


и 
ОЗ n 
12 


v50 
297,6 + 3,3 


297,6 + 1,96 


ou 
294,3 a 300,9 


Esse resultado possibilita ao gerente de controle da qualidade concluir com 95% de confiança que a distân- 
cia média atingida pela população das bolas de golfe está entre 294,3 e 300,9 jardas (269,10 m e 275,14 m, 
respectivamente). Uma vez que o valor hipotético da média populacional, go = 295, está contido nesse 
intervalo, a conclusão do teste de hipóteses é que a hipótese nula, Hy: и = 295, não pode ser rejeitada. 

Note que essa discussão e exemplo pertencem a testes de hipótese bicaudais a respeito de uma média 
populacional. Entretanto, existe a mesma relação entre o intervalo de confiança e os testes de hipótese 
bicaudais para outros parâmetros populacionais. A relação também pode ser estendida para testes unicau- 
dais a respeito de parâmetros populacionais. Para fazê-lo, porém, é necessário o desenvolvimento de inter- 
valos de confiança unilaterais, os quais raramente são usados na prática. 


NOTAS E COMENTÁRIOS 


1. No Apêndice 9.2, mostramos como calcular valores p com o Excel. 


2. Quanto menor o valor p, maior a evidência contra Hg, bem como a favor de H, Eis algumas diretrizes 
estatísticas que os estatísticos sugerem para interpretar valores p pequenos: 
* Menor que 0,01 — Esmagadora evidência de que H, é verdadeira. 
* Entre 0,01 e 0,05 — Forte evidência de que Но é verdadeira. 
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* Entre 0,05 e 0,10 — Fraca evidência de que H, é verdadeira. 
* Maior que 0,10 — Insuficiente evidência de que H, é verdadeira. 


Exercícios 


Nota para o estudante: Alguns dos exercícios que são apresentados a seguir lhe pedem para usar o crité- 
rio do valor p, e outros pedem para usar o critério do valor crítico. Ambos os métodos produzirão a mesma 
conclusão de um teste de hipóteses. Apresentamos exercícios com os dois métodos para lhe dar a oportu- 
nidade de praticar ao utilizar ambos. Nas seções posteriores e nos capítulos seguintes, geralmente enfati- 
zaremos o critério do valor p como o método preferível, mas você pode escolher qualquer um dos dois 
baseando-se em sua preferência pessoal. 


Métodos 


9, 


11. 


12. 


13. 


Considere o seguinte teste de hipóteses: 
Ho и = 20 
Hyu < 20 
Uma amostra de tamanho 50 produziu a média amostral 19,4. O desvio padrão da população é 2. 
a. Calcule o valor da estatística de teste. 
b. Qual é o valor p? 
c. Usando а = 0,05, qual é a sua conclusão? 
d. Qual é a regra de rejeição, usando-se o valor crítico? Qual é a sua conclusão? 
Considere o seguinte teste de hipóteses: 
Не: и = 25 
Н: uc 25 
Uma amostra de tamanho 40 produziu a média amostral 26,4. O desvio padrão da população é 6. 
a. Calcule o valor da estatística de teste. 
b. Qual é o valor p? 
c. Com a = 0,01, qual é a sua conclusão? 
d. Qual é a regra de rejeição, usando-se o valor crítico? 
Considere o seguinte teste de hipóteses: 
Hy н = 15 
Нұн 15 
Uma amostra de tamanho 50 produziu a média amostral 14,15. O desvio padrão da população é 3. 
a. Calcule o valor da estatística de teste. 
b. Qual é o valor p? 
c. Com а = 0,05, qual é a sua conclusão? 
d. Qual é a regra de rejeição, usando-se o valor crítico? Qual é a sua conclusão? 
Considere o seguinte teste de hipóteses: 
Ho: u = 80 
Нени < 80 
Uma amostra de tamanho 100 é usada е о desvio padráo da populacáo é 12. Calcule o valor p e apre- 
sente sua conclusão quanto a cada um dos seguintes resultados amostrais. Use а = 0,01. 


a. х= 78,5 

b. х= 77 

c. X- 75,5 

d.X— 81 

Considere o seguinte teste de hipóteses: 
Нуи = 50 
Ніни 2 5 


Uma amostra de tamanho 60 é usada е o desvio padrão da população é 8. Use o critério do valor crí- 
tico para apresentar sua conclusão quanto а cada um dos seguintes resultados amostrais. Use а = 0,05. 
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14, 


a. х= 52,5 

b. х= 51 

c. ï= 51,8 

Considere o seguinte teste de hipóteses: 
Нұн = 22 
Н.и + 22 


Uma amostra de tamanho 75 é usada е о desvio padráo da populagáo é 10. Calcule о valor p е apre- 
sente sua conclusão quanto a cada um dos seguintes dados amostrais. Use a = 0,01. 

а, х= 23 

b. x = 25,1 

c. х= 20 


Aplicacóes 


15. 


16. 


17. 


18. 


As declarações do imposto de renda individuais entregues antes do dia 31 de março obtiveram uma 
média de restituição de US$ 1.056. Considere a população de declarantes “de última hora" que entre- 
gam suas declarações durante os cinco últimos dias do período de entrega das declarações do impos- 
to de renda (tipicamente, de 10 a 15 de abril). 


a. Um pesquisador sugere que uma razão para que as pessoas esperem até os cinco últimos dias é que 
em média essas pessoas têm menores restituições a receber do que aquelas que entregam as decla- 
rações primeiro. Desenvolva as hipóteses apropriadas de tal forma que a rejeição de Ну sustente a 
argumentação do pesquisador. 

b. Para uma média de 400 indivíduos que entregaram suas declarações entre 10 e 15 de abril, a média 
amostral de restituição foi de US$ 910. Baseando-se na experiência anterior, pode-se supor um des- 
vio padrão populacional с = US$ 1.600. Qual é o valor p? 

c. Com а = 0,05, qual é a sua conclusão? 

d. Repita o teste de hipóteses anterior usando o critério do valor crítico. 


A Reis, Inc., uma firma de pesquisa imobiliária de Nova York, acompanha o custo do aluguel de apar- 
tamentos nos Estados Unidos. Em meados de 2002, o índice médio de aluguel por apartamento em 
todo o território nacional era de US$ 895 por mês (The Wall Street Journal, 8 de julho de 2002). 
Suponha que, baseando-se em pesquisas trimestrais históricas, seja razoável considerar-se um desvio 
padrão populacional с = US$ 225. Em um estudo recente dos índices de aluguel de apartamentos, 
uma amostra de 180 apartamentos de todo o país produziu uma média amostral de US$ 915 por mês. 
Os dados amostrais possibilitam à Reis concluir que o índice médio populacional de aluguel de apar- 
tamentos agora ultrapasse o nível relatado em 2002? 


a. Estabeleça as hipóteses nula e alternativa. 

b. Qual é o valor p? 

c. Com а = 0,01, qual é a sua conclusão? 

d. O que você recomendaria que a Reis considerasse fazer agora? 


Foi divulgado que a duração média de uma semana de trabalho para a população de trabalhadores é 
de 39,2 horas (Investor's Business Daily, 11 de setembro de 2000). Suponha que quiséssemos extrair 
uma amostra atual de trabalhadores para verificar se a duração média de uma semana de trabalho se 
modificou das 39,2 horas relatadas anteriormente. 


a. Estabeleça as hipóteses que nos ajudem a determinar se ocorreu uma alteração na duração média 
da semana de trabalho. 

b. Suponha que um tamanho de amostra de 112 trabalhadores tenha produzido uma média amostral 
de 38,5 horas. Use um desvio padrão populacional o = 4,8 horas. Qual é o valor p? 

c. Com a = 0,05, a hipótese nula pode ser rejeitada? Qual é a sua conclusão? 

d. Repita o teste de hipótese anterior usando o critério do valor crítico. 

A média de rendimento anual total dos fundos mútuos de ações diversificados — U.S. Diversified 

Equity funds — de 1999 a 2003 foi de 4,1% (Business Week, 26 de janeiro de 2004). Um pesquisador 

gostaria de realizar um teste de hipóteses para verificar se os rendimentos dos fundos de crescimen- 

to de média capitalização (mid-cap growth funds), ao longo do mesmo período, são significativamen- 

te diferentes da média dos fundos mútuos de ações diversificados. 
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19. 


20. 


21. 


22. 


a. Formule as hipóteses que podem ser usadas para determinar se a média de rendimento anual dos 
fundos de crescimento de média capitalização difere da média dos fundos mútuos de ações diver- 
sificados. 

b. Uma amostra de 40 fundos de crescimento de média capitalização fornece uma média de retorno 
anual x = 3,4%. Suponha que se saiba, em decorrência dos estudos anteriores, que o desvio padrão 
da população dos fundos de crescimento de média capitalização seja o = 2%; use os resultados 
amostrais para calcular a estatística de teste e o valor p do teste de hipóteses. 

c. Com a = 0,05, qual é a sua conclusão? 


Em 2001, o U.S. Department of Labor (Departamento do Trabalho dos Estados Unidos) relatou que 
a média de remuneração horária para os trabalhadores do setor de produção norte-americanos é de 
US$ 14,32 por hora (The World Almanac, 2003). Uma amostra de 75 trabalhadores do setor de pro- 
dução durante 2003 produziu uma média amostral de US$ 14,68 por hora. Supondo que o desvio 
padrão da população seja с = US$ 1,45, podemos concluir que ocorreu um aumento da remunera- 
ção horária média a partir de 2001? Use а = 0,05. 

A média nacional dos preços de venda de casas novas destinadas a uma única família é US$ 181.900 
(The New York Times Almanac, 2000). Uma amostra de 40 vendas de casas destinadas a uma única 
família no sul do país exibiu uma média amostral igual a US$ 166.400. Use o desvio padrão popula- 
cional de US$ 33.500. 


a. Formule as hipóteses nula e alternativa que podem ser usadas para determinar se os dados amos- 
trais sustentam a conclusão de que a média populacional dos preços de venda de casas novas des- 
tinadas a uma única família no sul do país seja menor que a média nacional de US$ 181.900. 

b. Qual é o valor da estatística de teste? 

c. Qual é o valor p? 

d. Com a = 0,01, qual é a sua conclusão? 


A Fowle Marketing Research, Inc., fundamenta os preços que cobra de seus clientes na suposição de 
que as pesquisas telefônicas podem ser concluídas em um tempo médio de 15 minutos ou menos. Se 
for necessário um tempo médio de pesquisa mais longo, uma taxa adicional é cobrada. Suponha que 
uma amostra de 35 pesquisas apresente uma média amostral de 17 minutos. Use o = 4 minutos. A 
taxa adicional se justifica? 


a. Formule as hipóteses nula e alternativa para essa aplicação. 
b. Calcule o valor da estatística de teste. 

c. Qual é o valor р? 

d. Com a = 0,01, qual é a sua conclusão? 


A CCN e a ActMedia criaram um canal de televisão destinado a pessoas que esperam nas filas do 
caixa de supermercados. O canal apresentava notícias, entrevistas breves e anúncios. A duração do 
programa baseava-se na suposição de que o tempo médio que a população de compradores permane- 
ce em uma fila de supermercado é igual a 8 minutos. Uma amostra de tempos de espera reais será 
usada para testar essa suposição e determinar se a média de tempo de espera real difere desse padrão. 


a. Formule as hipóteses para essa aplicação. 

b. Uma amostra de 120 compradores apresentou uma média amostral de tempo de espera de 8,5 
minutos. Suponha um desvio padrão populacional s = 3,2 minutos. Qual é o valor p? 

c. Com a = 0,05, qual é a sua conclusão. 

d. Calcule um intervalo de confiança de 95% para a média populacional. Ela sustenta sua conclusão? 


9.4 MÉDIA DA POPULAÇÃO: с DESCONHECIDO 


Nesta seção, descreveremos como realizar testes de hipótese a respeito de uma média populacional consi- 
derando o caso em que o é desconhecido. Uma vez que o caso em que o é desconhecido corresponde à 
situação em que não se pode desenvolver uma estimativa do desvio padrão populacional antes de se fazer 
a amostragem, a amostra deve ser usada para desenvolver uma estimativa de и, tanto quanto de o. Assim, 


para se realizar um teste de hipóteses a respeito de uma média populacional para o caso em que o é des- 


conhecido, utilizamos a média amostral X como uma estimativa de e usamos o desvio padrão s da amos- 
tra como uma estimativa de с. 


Capítulo 9 Testes de Hipóteses 


As etapas do procedimento de teste de hipóteses referentes ao caso em que о é desconhecido são simi- 
lares às do caso em que о é conhecido, conforme descrevemos na Seção 9.3. Mas, com o desconhecido, 
os cálculos da estatística de teste e do valor p são bem diferentes. Lembre-se de que, no caso em que о é 
conhecido, a distribuição amostral da estatística de teste tem uma distribuição normal padrão. Porém, para 
о caso em que о é desconhecido, a distribuição amostral da estatística de teste tem uma variabilidade ligei- 
ramente maior porque a amostra é usada para desenvolver estimativas tanto de и como de о. 

Na Seção 8.2, mostramos que uma estimação por intervalo de uma média populacional para o caso em 
que о é desconhecido baseia-se em uma distribuição probabilística conhecida por distribuição t. Os testes 
de hipóteses a respeito da média de uma população para o caso em que o é desconhecido também se 
baseiam na distribuição t. Para o caso em que с é desconhecido, a estatística de teste tem uma distribui- 
ção t com n — 1 graus de liberdade. 


ESTATÍSTICA DE TESTE PARA TESTES DE HIPÓTESE A RESPEITO DE UMA 
MÉDIA POPULACIONAL: о DESCONHECIDO 
BEER 


fer s/Vn 


(9.4) 


No Capítulo 8, dissemos que a distribuição ѓ se baseia na suposição de que a população da qual extraí- 
mos a amostra tem uma distribuição amostral, Entretanto, as pesquisas mostram que essa suposição pode 
ser consideravelmente desprezada quando o tamanho da amostra for suficientemente grande. 
Apresentamos alguns conselhos práticos referentes à distribuição populacional e ao tamanho da amostra 
no fim desta seção. 


Teste Unicaudal 


Consideremos um exemplo de teste unicaudal a respeito de uma média populacional para o caso em que o 
é desconhecido. Uma revista de viagens de negócios quer classificar os aeroportos internacionais de acordo 
com a avaliação média da população de pessoas que viajam a negócios. Será usada uma escala de classifica- 
ção, sendo O uma avaliação baixa e 10 uma avaliação elevada, e os aeroportos que receberem uma avaliação 
média populacional maior que 7 serão designados como aeroportos com um atendimento de alto nível. 

A equipe da revista pesquisou uma amostra de 60 viajantes de negócios em cada aeroporto para obter 
os dados da avaliação. A amostra do Aeroporto Heathrow, de Londres, produziu uma avaliação média 
amostral X = 7,25 e um desvio padrão s da amostra igual a 1,052. Os dados indicam que o Aeroporto 
Heathrow deveria ser designado como um aeroporto com atendimento de alto nível? 

Queremos desenvolver um teste de hipóteses referente a qual decisão de rejeitar H acarretará a con- 
clusão de que a avaliação média populacional do Aeroporto Heathrow seja maior que 7. Desse modo, um 
teste da cauda superior, com Н: и > 7, é necessário. As hipóteses nula e alternativa para esse teste da 
cauda superior são as seguintes: 


Hyuz7 
Hu 


Utilizaremos а = 0,05 como nível de significância para o teste. 
Usando a Equação 9.4, com x = 7,25, s = 1,052 e n = 60, o valor da estatística de teste é 


p=% lo Tas — 7 


sim 1052/60 — 


A distribuição amostral de ? tem п — 1 = 60 1 = 59 graus de liberdade. Uma vez que o teste é um teste 
da cauda superior, o valor р é a área sob a curva da distribuição 1 à direita de г = 1,84. 

As tabelas de distribuição t apresentadas na maioria dos livros didáticos não conterão detalhes suficien- 
tes рага determinarmos o valor p exato, como o valor p correspondente a t = 1,84. Por exemplo, ao usar- 
mos a Tabela 2 do Apéndice B, a distribuição / com 59 graus de liberdade fornece a seguinte informação: 
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Área da Cauda Superior | 0,20 0,10 0,05 0,025 0,01 0,005 
Valor t (59 graus de lib.) | 0,848 1,296 1,671 2,001 2,391 2,662 
t = 1,84 


Vemos que t = 1,84 está entre 1,671 e 2,001. Não obstante a tabela não fornecer o valor p exato, os 
valores apresentados na linha “Área da Cauda Superior” indicam que o valor p deve ser menor que 0,05 e 
maior que 0,025. Com um nível de significância a = 0,05, essa localização é tudo o que precisamos para 
saber tomar a decisão de rejeitar a hipótese nula e concluir que o Aeroporto Heathrow deve ser classifica- 
do como um aeroporto com atendimento de alto nível. 

Softwares como o Minitab e o Excel podem determinar facilmente o valor p exato associado à estatís- 
tica de teste t = 1,84. Por exemplo, a saída de dados (outpur) do Minitab da Figura 9.8 apresenta a média 
amostral X = 7,25, o desvio padrão amostral s = 1,052 (arredondado), a estatística de teste t = 1,84 e o 
valor p exato = 0,035 referente ao teste de hipóteses da avaliação do Aeroporto Heathrow, Um valor p = 
0,035 < 0,05 leva à rejeição da hipótese nula e à conclusão de que o Aeroporto Heathrow deve ser classi- 
ficado como um aeroporto com atendimento de alto nível. O procedimento passo a passo usado para obter- 
mos a saída do Minitab apresentada na Figura 9.8 é descrito no Apêndice 9.1. 

O critério do valor crítico também pode ser usado para se tomar a decisão de rejeição. Com а = 0,05 
e a distribuição t com 59 graus de liberdade, го; = 1,671 é o valor crítico do teste. A regra de rejeição é, 
portanto, 


Rejeitar Ho se t = 1,671 


Figura 9.8 Saída de dados do Minitab relativa ao teste de hipóteses da avaliacáo do Aeroporto Heathrow 


Test of m = 7 vs > 7 


95% 

Lower 
Variable М Mean ` StDev | SE Mean Bound T | Р 
Rating 60 7.250 1.05163 0.13577 7.02312 1.84 0.035 


Com a estatística de teste г = 1,84 = 1,671, Но é rejeitada, e podemos concluir que o Aeroporto Heathrow 
pode ser classificado como um aeroporto com atendimento de alto nível. 


Teste Bicaudal 


Para ilustrar como se realiza um teste bicaudal a respeito de uma média populacional para o caso em que 
o é desconhecido, consideremos а situação de teste de hipóteses enfrentada pela Holiday Toys. A empre- 
sa manufatura seus produtos e os distribui para mais de mil pontos de revenda. Ao planejar os níveis de 
produção para a próxima estação de inverno, a Holiday precisa decidir quantas unidades de cada produto 
deve produzir antes de conhecer a demanda real ao nível de varejo. Em relação ao novo brinquedo mais 
importante deste ano, o diretor de marketing da Holiday espera que a demanda atinja uma média de 40 
unidades por ponto de revenda. Antes de tomar a decisão final de produção baseando-se nessa estimativa, 
a Holiday decidiu pesquisar uma amostra de 25 varejistas a fim de desenvolver mais informações sobre a 
demanda pelo novo produto. Cada varejista recebeu informações sobre as características do novo brinque- 
do, além do custo e do preço de venda sugerido. Depois, cada varejista foi solicitado a especificar um lote 
de compra previsto. 

Considerando que и denota a média dos lotes de compra da população por ponto de revenda, os dados 
amostrais serão usados para realizar o seguinte teste de hipótese bicaudal: 


Hg u = 40 
Hx и #40 
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Se Ао não puder ser rejeitada, a Holiday continuará seu planejamento da produção baseando-se na 
estimativa feita pelo diretor de marketing, segundo a qual a média dos lotes de compra da população por 
ponto de revenda será и = 40 unidades. Entretanto, se Ho for rejeitada, a Holiday reavaliará imediata- 
mente seu plano de produção do produto. Um teste de hipóteses bicaudal é usado porque a Holiday quer 
reavaliar o plano de produção se a média dos lotes de compra da população por ponto de revenda for 
menor ou maior que o previsto. Uma vez que não há dados históricos disponíveis (trata-se de um novo 
produto), a média x da população e o desvio padrão da população devem ser, ambos, estimados usando- 
se Хес dos dados amostrais. 

A amostra de 25 varejistas produziu uma média x = 37,4 e um desvio padrão o = 11,79 unidades. 
Antes de seguir em frente utilizando a distribuição г, o analista construiu um histograma dos dados amos- 
trais a fim de verificar a forma da distribuição populacional. O histograma dos dados amostrais não apre- 
sentou nenhuma evidência de assimetria nem pontos fora da curva extremos, de forma que o analista con- 
cluiu que o uso da distribuição ? com n — 1 = 24 graus de liberdade era apropriado. Usando a Equação 9.4, 
com X = 37,4, ug = 40,5 = 11,79 e n = 25, o valor da estatística de teste é: 


p= EAS, 374-40 T 
s/Vn 1179/25 


Já que se trata de um teste bicaudal, o valor p é duas vezes a área sob a curva da distribuição t à esquer- 
da de t = —1,10. Ao usarmos a Tabela 2 do Apéndice B, notamos que a tabela da distribuição t correspon- 
dente a 24 graus de liberdade fornece a seguinte informação: 


Área da Cauda Superior | 0,20 0,10 0,05 0,025 0,01 0,005 
Valor t (24 graus de lib.) | 0,857 X 1,318 1,711 2,064 2,492 2,797 


t=ALIO 


A tabela de distribuição г contém somente valores : positivos. Entretanto, desde que a distribuição 1 seja 
simétrica, podemos encontrar a área sob a curva à direita de ғ = 1,10 e duplicá-la para encontrarmos o 
valor p. Notamos que é = 1,10 está entre 0,857 e 1,318. Na linha “Área da Cauda Superior”, notamos que 
a área na cauda à direita de г = 1,10 está entre 0,20 e 0,10. Duplicando esses valores, notamos que o valor 
p deve estar entre 0,40 e 0,20. Com um nível de significáncia a — 0,05, agora sabemos que o valor p é 
maior que а. Portanto, Ho não pode ser rejeitada. Não há suficientes evidências disponíveis para concluir- 
mos que a Holiday deve alterar seu plano de produção para a próxima estação. Usando o Minitab e o Excel, 
descobrimos que o valor p exato é 0,282. A Figura 9.9 apresenta as duas áreas sob a curva da distribuição 
t que fornecem o valor p exato. 

A estatística de teste também pode ser comparada com o valor crítico para se tomar a decisáo em tes- 
tes de hipóteses bicaudais. Com а = 0,05 e a distribuição t com 24 graus de liberdade, —to 025 = —2,064 e 
10025 = 2,064 são os valores críticos para o teste bicaudal. A regra de rejeição, usando-se a estatística de 
teste, é: 


Rejeitar Н se t = —2,064 ou se t = 2,064 


Com base na estatística de teste t = –1,10, Но não pode ser rejeitada. Esse resultado indica que a Holiday 
deve manter seu planejamento de produção para a próxima estação baseando-se na expectativa de que 
и = 40. 


Resumo e Conselho Prático 


A Tabela 9.3 apresenta um resumo dos procedimentos de teste de hipóteses a respeito de uma média popu- 
Jacional para o caso em que o é desconhecido. A diferença fundamental entre esses procedimentos e aque- 
les em que о é conhecido é que s é usado em vez de o no cálculo da estatística de teste. Por esse motivo, 
a estatística de teste segue a distribuição f. 
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Figura 9.9 A área sob а curva em ambas as caudas fornece o valor p 


0 1,10 
valor p = 2(0,141) = 0,282 


Tabela 9.3 Resumo dos testes de hipótese a respeito de uma média populacional: 
caso em que c é desconhecido 


Teste da Cauda Inferior Teste da Cauda Superior Teste Bicaudal 
Й Но и = Hy y = Нуи = f 
Hipótese o: M = Ho o E E Ho 0: o 
Р Ha H < шо Ha H >ш Ha д o 
isti X—Ho X-— Ho X- Ho 
tística de Test: t= = = 
Estatística de Teste B Na t= ana tT 
Regra de Rejeição: Rejeitar Ho se Rejeitar Н se Rejeitar Ho se 
Critério do Valor p ovalorp жа ovalorp=a ovalorp = a 
Regra de Rejeição: Rejeitar Ho se Rejeitar Н; se Rejeitar Ho se 
Critério do Valor tS -ta t> ta tS taz 
Crítico ouset = tan 


A aplicabilidade dos procedimentos de teste de hipóteses apresentados nesta seção depende da distri- 
buição da população da qual se extrai a amostra e do tamanho da amostra. Quando a população estiver nor- 
malmente distribuída, os testes de hipóteses descritos nesta seção produzirão resultados exatos para qual- 
quer tamanho de amostra. Quando a população não estiver normalmente distribuída, os procedimentos 
serão aproximações. Todavia, observamos que tamanhos de amostras maiores que 50 produzirão bons 
resultados em quase todos os casos. Se a população for aproximadamente normal, tamanhos de amostra 
pequenos (por exemplo, п = 15) podem produzir resultados aceitáveis. Em situações nas quais a popula- 
ção não pode ser aproximada a uma distribuição normal, tamanhos de amostra 2 = 15 produzirão resulta- 
dos aceitáveis contanto que a população não tenha uma assimetria elevada e não contenha pontos fóra da 
curva. Se a população tiver uma assimetria elevada ou se contiver pontos fora da curva, tamanhos de amos- 
tra próximos de 50 serão uma boa idéia. 


Exercícios 
Métodos 
23. Considere o seguinte teste de hipótese: 
Нуи x 12 
Ни > 12 


Uma amostra de tamanho 25 produziu a média amostral x — 14 e um desvio padráo amostral s = 4,32. 


a. Calcule o valor da estatística de teste. 
b. O que a tabela de distribuição t (Tabela 2 do Apéndice B) Ihe diz sobre o valor р? 


Capítulo 9 Testes de Hipóteses 


c. Com а = 0,05, qual é a sua conclusão? 
d. Qual é a regra de rejeição, usando-se o valor crítico? Qual é a sua conclusão? 


24. Considere o seguinte teste de hipóteses: 


25. 


26. 


Hg: и = 18 
Ни = 18 
Uma amostra de tamanho 48 produziu uma média amostral x — 17 e um desvio padráo amostral 
$ = 4,5. 
а. Calcule o valor da estatística de teste. 
b. O que a tabela de distribuição ғ (Tabela 2 do Apéndice B) Ihe diz sobre o valor p? 
c. Com a — 0,05, qual é a sua conclusáo? 
d. Qual é a regra de rejeição, usando-se o valor crítico? Qual é a sua conclusão? 
Considere o seguinte teste de hipóteses: 
Ну: и > 45 
Н: и < 45 
Uma amostra de tamanho 36 é usada. Identifique o valor p e apresente sua conclusão em relação а 
cada um dos seguintes resultados de amostra. Use а = 0,01. 
a.x-44es—52 
b. х= 43 e s = 4,6 
c. х= 46e s = 5,0 
Considere o seguinte teste de hipóteses: 
Hg: и = 100 
Hy и = 100 
Uma amostra de tamanho 65 é usada. Identifique o valor p e apresente sua conclusão em relação a 
cada um dos seguintes resultados de amostra. Use a = 0,05. 
а.х = 103 es = 11,5 
b. х= 96,5 e s = 11,0 
c. х= 102е5 = 10,5 


Aplicacóes 


27. 


28. 


A Employment and Training Administration divulgou que a média dos benefícios de seguro-desem- 
prego nos Estados Unidos era de US$ 238 por semana (The World Almanac, 2003). Um pesquisador 
da Virgínia previu que dados amostrais comprovariam que a média dos benefícios de seguro-desem- 
prego na Virgínia estava abaixo do nível nacional. 


a. Desenvolva hipóteses apropriadas de tal forma que a rejeição de Но sustente a argumentação do 
pesquisador. 

b. Em relação a uma amostra de cem indivíduos, a média amostral dos benefícios de seguro-desem- 
prego semanais foi de US$ 231, com um desvio padrão amostral de US$ 80. Qual é o valor p? 

c. Com a = 0,05, qual é a sua conclusão? 

d. Repita o teste de hipótese anterior usando o critério do valor crítico. 


A National Association of Professional Baseball Leagues, Inc. divulgou que o público presente nos 
jogos das 176 equipes de beisebol da minor league? atingiu níveis sem precedentes durante a tempo- 
rada de 2001 (New York Times, 28 de julho de 2002). Por jogo, a média de público nos jogos de bei- 
sebol da minor league foi de 3.530. Na metade da temporada de 2002, o presidente da associação soli- 
citou um relatório de presença do público que esperançosamente mostrasse que a média de público 
em 2002 ultrapassou o nível de 2001. 


a, Formule hipóteses que poderiam ser usadas para determinar se a média de público por jogo em 
2002 foi maior que o nível do ano anterior. 


2 NT: Minor league — Clubes de beisebol profissional não-integrantes das major leagues, as duas ligas principais de clubes de bei- 
sebol profissional nos Estados Unidos: a National League e a American League. 
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29. 


30. 


31. 


32. 


33. 


b. Suponha que uma amostra de 92 jogos de beisebol da minor league disputados durante a primeira 
metade da temporada de 2002 apresente uma média de páblico de 3.740 pessoas por jogo, com um 
desvio padráo amostral igual a 810. Qual é o valor p? 

c. Com а = 0,01, qual é a sua conclusão? 


O custo de um brilhante de um quilate, com brilho VS2 e cor H, da Diamond Source USA, é de 
US$ 5.600 (diasource.com, março de 2003). Um joalheiro do meio-oeste liga para seus contatos do 
diamond district de Nova York para verificar se o prego médio dos diamantes lá difere dos US$ 5.600. 


a. Formule hipóteses que possam ser usadas para determinar se a média de precos em Nova York dife- 
re dos US$ 5.600. 

b. Suponha que uma amostra de 25 contatos de Nova York produza um preco médio amostral de US$ 
5.835 e um desvio padráo amostral de US$ 520. Qual é o valor p? 

c. Com а = 0,05, a hipótese nula pode ser rejeitada? Qual é a sua conclusão? 

d. Repita o teste de hipótese anterior usando o critério do valor crítico. 


A CNN, da AOL Time Warner Inc., foi durante muito tempo a líder de audiência em jornalismo da 
televisão a cabo. A Nielsen Media Research indicou que a média de telespectadores da CNN foi de 
600 mil pessoas por dia durante 2002 (The Wall Street Journal, 10 de margo de 2003). Suponha que, 
para uma amostra de 40 dias, durante o primeiro semestre de 2003, o público médio tenha sido 
612 mil telespectadores, com um desvio padráo de 65 mil pessoas. 


а. Quais sáo as hipóteses se a geréncia da CNN quisesse obter informagóes sobre quaisquer altera- 
сбез no püblico telespectador da CNN? 

b. Qual é o valor p? 

c. Escolha seu próprio nível de significância? Qual é a sua conclusão? 

d. Qual recomendação você faria à gerência da CNN nessa aplicação? 


A Rafaelis Financial Consulting divulgou que a média trimestral das contas de consumo de água nos 
Estados Unidos é US$ 47,50 (U.S. News & World Report, 12 de agosto de 2002). Alguns sistemas de 
abastecimento de água são operados por empresas públicas, ao passo que outros sistemas de abaste- 
cimento de água são operados por empresas particulares. Um economista destacou que privatização 
não equivale à competição e que os poderes de monopólio concedidos às empresas públicas agora 
estão sendo transferidos às empresas privadas. A preocupação é que os consumidores acabem por 
pagar tarifas maiores que a média pela água fornecida pelas empresas privadas. O sistema de abaste- 
cimento de água de Atlanta, na Geórgia, é administrado por uma empresa privada. Uma amostra de 
64 consumidores de Atlanta exibiu uma média trimestral de US$ 51 quanto às suas contas de consu- 
mo de água, com um desvio padrão amostral igual a US$ 12. Com а = 0,05, a amostra de consumi- 
dores de Atlanta sustenta a conclusão de que existem tarifas acima da média com respeito ao sistema 
privado de abastecimento de água nessa cidade? Qual é a sua conclusão? 


De acordo com a National Automobile Dealers Association, o preço médio dos carros usados é 
US$ 10.192. O gerente de uma revendedora de carros usados de Kansas City revisou uma amostra de 
50 vendas recentes de carros usados em sua revendedora, tentando determinar se o preço médio popu- 
lacional dos carros usados vendidos em sua revendedora em particular diferia da média nacional. 


a. Formule as hipóteses que podem ser usadas para determinar se existe uma diferença na média de 
preços de carros usados na revendedora. 

b. Qual é o valor p com base em um preço médio amostral de US$ 9.750 e em um desvio padrão 
amostral de US$ 1.400? 

c. Com а = 0,05, qual é a sua conclusão? 


O novo ERC driver? forjado em titânio, da Callway Golf Company, tem sido descrito como “ilegal” 
porque promete distâncias de arremesso (driving distances) que ultrapassam o padrão estabelecido 
pela USGA. A Golf Digest comparou as distâncias de arremesso reais com o ERC driver e com um 
driver aprovado pela USGA, obtendo uma média populacional de distância de arremesso de 256,03 m. 
Com base em nove arremessos para fins de teste, a média de distância obtida pelo ERC driver foi de 
262,34 m (Golf Digest, 12 de maio de 2000). Responda às questões a seguir supondo um desvio 
padrão amostral de 9,14 m para a distância de arremesso. 


3 NT: Driver — Taco de golfe com cabo de madeira e pouca inclinação, usado para lançar a bola do tee (ponto a partir do qual se bate 


a primeira tacada em cada buraco). “ERC” são as iniciais do fundador da Callaway Company: Elly Reeves Callaway (Golfe). 
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a. Formule as hipóteses nula e alternativa que podem ser usadas para determinar se o novo ERC dri- 
ver tem uma média populacional de distância de arremesso maior que 256,03 m. 

b. Em média, quantos metros a mais a bola de golfe percorreu com o ERC driver? 

c. Com a = 0,05, qual é a sua conclusão? 


34. A Joan’s Nursery é especialista em paisagismo personalizado para áreas residenciais. O custo de mão- 
de-obra estimado associado a uma proposta de paisagismo em particular baseia-se no número de 
plantações de árvores, arbustos etc. Para fins de estimação do custo, os gerentes utilizam duas horas 
de mão-de-obra para o plantio de uma árvore de tamanho médio. Os tempos reais de uma amostra de 
dez plantações durante o mês passado são apresentados a seguir (o tempo está expresso em horas). 


1,7 1,5 26 2,2 24 23 2,6 3,0 1,4 2,3 


Com um nível de significância de 0,05, teste se a média de tempo de plantio das árvores difere de 
duas horas. 


a. Estabeleça as hipóteses nula e alternativa. 
b. Calcule a média da amostra. 

c. Calcule o desvio padrão da amostra. 

d. Qual é o valor p? 

e. Qual é a sua conclusão? 


9.5 PROPORÇÃO DA POPULAÇÃO 


Nesta seção, mostramos como realizar um teste de hipóteses a respeito de uma proporção populacional p. 
Usando ро para denotar o valor hipotético da proporção populacional, as três formas de teste de hipóteses 
a respeito de uma proporção populacional são as seguintes: 


Нор = po Ho: p = Po Ho: P = ро 
Hy p < po Hy p > ро Нұр F ро 


A primeira forma é chamada teste da cauda inferior, a segunda forma é denominada teste da cauda 
superior e a terceira forma é designada teste bicaudal. 

Os testes de hipótese a respeito de uma proporção populacional baseiam-se na diferença entre a pro- 
porção amostral p e a proporção populacional p, hipotética. Os métodos utilizados para realizar o teste de 
hipóteses são similares àqueles que são usados para os testes de hipóteses a respeito de uma média popu- 
lacional. A única diferença é que usamos a proporção amostral e seu erro padrão para calcular a estatísti- 
ca de teste. O critério do valor p ou o critério do valor crítico é então usado para determinar se a hipótese 
nula deve ser rejeitada, 

Consideremos um exemplo que envolve uma situação enfrentada pelo curso de golfe Pine Creek. No 
decorrer do ano passado, 20% dos jogadores no Pine Creek eram mulheres. Em um esforço para aumen- 
tar a proporção de mulheres jogadoras, o Pine Creek implementou uma promoção especial, idealizada para 
atrair mulheres golfistas. Um mês depois que a promoção foi implementada, o gerente do curso solicitou 
um estudo estatístico para determinar se a proporção de mulheres golfistas no Pine Creek havia aumenta- 
do. Uma vez que o objetivo do estudo é determinar se a proporção de mulheres golfistas aumentou, um 
teste da cauda superior, com H,: p > 0,20, é apropriado. As hipóteses nula e alternativa do teste de hipó- 
tese do Pine Creek são as seguintes: 


Hg p = 0,20 
Нұр > 020 


Se Но puder ser rejeitada, os resultados do teste darão apoio estatístico à conclusão de que a proporção 
de mulheres golfistas aumentou e que a promoção foi benéfica. O gerente do curso especificou que um 
nível de significância а = 0,05 deveria ser usado na execução desse teste de hipóteses. 

A etapa seguinte do procedimento de teste de hipóteses é selecionar uma amostra e calcular o valor de 
uma estatística de teste apropriada. Para mostrar como essa etapa é feita, considerando o teste da cauda 
superior do Pine Creek, iniciamos com uma discussão geral de como é possível calcular o valor da esta- 
tística de teste para qualquer forma de estatística de teste de uma proporção populacional. A distribuição 
amostral de p, que é o estimador por ponto do parâmetro populacional p, é a base para desenvolvermos a 
estatística de teste. 
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Quando a hipótese пша é verdadeira enquanto igualdade, o valor esperado de р equivale ao valor hipo- 
tético po; ou seja, Е(р) = po. O erro padrão de р é dado por: 


o= (ро = Ро) 


No Capítulo 7, dissemos que se np > 5 e л(1 – р) > 5, a distribuição amostral de р pode ser aproxi- 
mada a uma distribuição normal." Sob essas condições, as quais geralmente se aplicam na prática, a quan- 
tidade 


(9.5) 


tem uma distribuição normal padrão de probabilidade. Com о; = Vpy(1 — ро)/п, а variável aleatória z 
normal padrão é a estatística de teste utilizada para se realizar testes de hipótese a respeito de uma propor- 
ção populacional. 


ESTATÍSTICA DE TESTE PARA TESTES DE HIPÓTESE A RESPEITO 
DE UMA PROPORÇÃO POPULACIONAL 


PTP 


ү 


Agora, podemos calcular a estatística de teste correspondente ao teste de hipóteses do Pine Creek. 
Suponha que uma amostra aleatória de 400 jogadores tenha sido selecionada e que 100 desses jogadores 
eram mulheres. À proporcáo de mulheres golfistas é: 


z= 


(9.6) 


Usando a Equação (9.6), o valor da estatística de teste é: 
Б-р, 0,25 — 0,20 0,05 


ү - Po) ү -020 002 
п 400 


2,50 


Uma vez que o teste de hipóteses do Pine Creek ё um teste da cauda superior, o valor p é a probabili- 
dade de z ser maior ou igual a z — 2,50; ou seja, é a área sob a curva normal padráo à direita de z — 2,50. 
Usando a tabela de áreas da distribuição normal padrão, descobrimos que a área entre a média e z = 2,50 
6 0,4938. Desse modo, o valor p para o teste do Pine Creek é 0,5000 — 0,4938 — 0,0062. A Figura 9.10 
apresenta esse cálculo do valor p. 

Lembre-se de que o gerente do curso especificou um nível de significância а = 0,05. Um valor p = 
0,0062 < 0,05 fornece suficiente evidência estatística para rejeitarmos Ме ao nível de significância 0,05. 
Assim, O teste constitui o suporte estatístico para a conclusão de que a promoção especial aumentou núme- 
ro de jogadoras no curso de golfe Pine Creek. ' 

А decisáo de rejeitar ou пйо rejeitar a hipótese nula também pode ser tomada usando-se o critério do 
valor crítico. O valor crítico correspondente a uma área de 0,05 na cauda superior de uma distribuição nor- 
mal padrão é 2005 = 1,645. 


* Na maioria das aplicações que envolvem testes de hipótese de uma proporção populacional, os tamanhos de amostra são suficien- 
temente grandes para se usar a aproximação normal. A distribuição amostral exata de p é discreta em relação à probabilidade de cada 
valor de p dado pela distribuição binomial. Assim, o teste de hipóteses é um pouco mais complicado para amostras pequenas quan- 
do a aproximação normal não pode ser usada. 
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Figura 9.10 Cálculo do valor p para o teste de hipóteses do Pine Creek 


Área = 0,4938 


valor p = P(z = 2,50) = 0,0062 


Desse modo, a regra de rejeição usando-se o critério do valor crítico é rejeitar Ho se z = 1,645. Uma 
vez que z = 2,50 > 1,645, Họ é rejeitada. 

Novamente, notamos que o critério do valor p e o critério do valor crítico levam à mesma conclusão 
do teste de hipóteses, mas o critério do valor p fornece mais informação. Com um valor p = 0,0062, a 
hipótese nula seria rejeitada para qualquer nível de significância maior ou igual a 0,0062. 


Resumo 


O procedimento utilizado para realizar um teste de hipóteses a respeito de uma proporção populacional é 
idêntico ao procedimento utilizado para realizar um teste de hipóteses de uma média populacional. Não 
obstante somente termos ilustrado a maneira de realizar um teste de hipóteses a respeito de uma propor- 
ção populacional para um teste da cauda superior, procedimentos idênticos podem ser usados para testes 
da cauda inferior e para testes bicaudais. A Tabela 9.4 apresenta um resumo dos testes de hipóteses a res- 
peito de uma proporção populacional. 


Tabela 9.4 Resumo dos testes de hipóteses a respeito de uma proporção populacional 


Teste da Cauda Inferior Teste da Cauda Superior Teste Bicaudal 
; Hoi и 2 шу Ну H = до Нед = Ho 
Hipóteses Нен X uo Нін > ду Hit Ф Ho 
ВФ ВФ Ё Фо 
Estatística de Teste z= z =— _—_—— Lin 
Pal — b) Pol =Po) ^ exc =Po) 
n n n 
Regra de Rejeição: Rejeitar Н se Rejeitar Hy se Rejeitar Hg se 
Critério do Valor p ovalorp x a ovalorp = a o valor p = а 
Regra de Rejeição: . Rejeitar Ho se Rejeitar Ho se Rejeitar Ho se 
Critério do Valor ZZ -Z 22:2, 25—24 
Crítico OU Se Z È Zan 
Exercícios 
Métodos 
35. Considere o seguinte teste de hipóteses: 
Нұр = 020 
Hx p * 0,20 


Uma amostra de tamanho 400 produziu a proporção amostral p = 0,175. 


a. Calcule o valor da estatística de teste. 
b. Qual é o valor p? 
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c. Com a — 0,05, qual é a sua conclusáo? 
d. Qual é a regra de rejeição, usando-se o valor crítico? Qual é a sua conclusão? 
Considere o seguinte teste de hipóteses: 
Нұр = 075 
Нұр < 075 
Uma amostra de 300 itens foi selecionada. Calcule o valor p e apresente a sua conclusáo com respei- 
to a cada um dos seguintes resultados amostrais. Use о. = 0,05. 


a. p — 0,68 
b.p = 0,72 
с.р = 0,70 
d. р = 0,77 


Aplicações 


37. 


O Heldrich Center for Workforce Development revelou que 4096 dos usuários de internet recebiam 
mais de dez mensagens de e-mail por dia (USA Today, 7 de maio de 2000). Um estudo similar sobre 
0 uso de e-mails foi repetido em 2002. 


a. Formule as hipóteses que podem ser usadas para determinar se a proporção de usuários de internet 
que recebem mais de dez mensagens de e-mail por dia aumentou. 

b. Se uma amostra de 425 usuários de internet revelou que 189 pessoas recebem mais de dez mensa- 
gens de e-mail por dia, qual é o valor p? 

c. Com a = 0,05, qual é a sua conclusáo? 


38. Um estudo realizado pela Consumer Reports mostrou que 64% das pessoas que fazem compras em 


39. 


40. 


supermercados acreditam que as marcas dos próprios supermercados são tão boas quanto as marcas 
de renome nacional. Para investigar se esse resultado se aplica ao seu próprio produto, o fabricante 
de uma marca de ketchup reconhecida nacionalmente perguntou a uma amostra de compradores se 
eles acreditavam que o ketchup de supermercado era tão bom quanto aquele de renome nacional. 


a. Formule as hipóteses que poderiam ser usadas para determinar se a porcentagem de pessoas que 
fazem compras em supermercados e que acreditam que o ketchup de supermercado era tão bom 
quanto o ketchup de marca nacional diferia de 64%. 

b. Se uma amostra de 100 compradores revelasse 52 pessoas que declaram que a marca de supermer- 
cado era tão boa quanto a marca nacional, qual é o valor p? 

c. Com a = 0,05, qual é a sua conclusão? 

d. O fabricante de ketchup de marca nacional deve ficar satisfeito com essa conclusão? Explique. 


O National Center for Health Statistics publicou um relatório que afirmava que 70% dos adultos não 
se exercitam regularmente (Associated Press, 7 de abril de 2002). Um pesquisador decidiu realizar 
um estudo para verificar se a afirmação do National Center for Health Statistics diferia em termos de 
estado para estado. 


a. Estabeleça as hipóteses nula e alternativa supondo que a intenção do pesquisador seja de identifi- 
car os estados que diferem dos 70% relatados pelo National Center for Health Statistics. 
b. Com а = 0,05, qual é a conclusão da pesquisa para os seguintes estados: 


Wisconsin: 252 de 350 adultos não se exercitavam regularmente 
Califórnia: 189 de 300 adultos não se exercitavam regularmente 


Antes do Super Bowl? de 2003, a rede ABC previu que 22% do público do Super Bowl manifestaria 
interesse em assistir a um dos seus novos programas de televisão a serem exibidos em breve, incluin- 
do “8 Simple Rules”, “Are You Hot?” e “Dragnet”. A ABC exibiu comerciais desses novos progra- 
mas de televisão durante o Super Bowl. No dia seguinte ao Super Bowl, o Intermediate Advertising 
Group, de Nova York, tomou uma amostra de 1.532 telespectadores que viram os comerciais e reve- 
lou que 414 disseram que assistiriam a um dos anunciados programas de televisão da ABC (The Wall 
Street Journal, 30 de janeiro de 2003). 


^ NT: Super Bowl (ou Superbowl) — Final do campeonato de futebol norte-americano. 
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41. 


42. 


43. 


45. 


a. Qual é a estimação por ponto da proporção do público que disse que assistiria aos programas de 
televisão depois de verem os comerciais de TV? 

b. Com а = 0,05, determine se a intenção de assistir aos programas de televisão da ABC se elevou 
significativamente depois de verem os comerciais de televisão. Formule as hipóteses apropriadas, 
calcule o valor p e apresente a sua conclusão. 

c. Por que esses estudos sáo valiosos para as empresas e para as firmas de publicidade? 


O Microsoft Outlook é o gerenciador de e-mails mais amplamente usado. Um executivo da Microsoft 
afirma que o Microsoft Outlook é utilizado por, no mínimo, 75% dos usuários de internet. Uma amos- 
tra de usuários de internet será usada para testar essa afirmação. 


a. Formule as hipóteses que podem ser usadas para testar a afirmação. 

b. Um estudo realizado pela Merryll Lynch relatou que o Microsoft Outlook é usado por 72% dos 
usuários de internet (CNBC, junho de 2000). Suponha que o relatório tenha se baseado em um 
tamanho de amostra de 300 usuários de internet. Qual é o valor p? 

c. Com а = 0,05, a afirmação do executivo referente a, “no mínimo, 75%” deve ser rejeitada? 


De acordo com a American Housing Survey, do Departamento do Censo dos Estados Unidos, a razão 
principal que leva as pessoas que mudam de residência a escolherem determinada região é o fato de 
a localização ser conveniente para o trabalho (USA Today, 24 de dezembro de 2002). Com base nos 
dados do Departamento do Censo de 1990, sabemos que 24% das pessoas que mudaram de residên- 
cia indicaram “localização conveniente para o trabalho” como a razão principal para escolherem a 
nova região. Suponha que uma amostra de 300 pessoas que se mudaram durante 2003 tenha revela- 
do que 93 o fizeram com o objetivo de morar mais perto do trabalho. Os dados da amostra dão supor- 
te à conclusão de pesquisa segundo a qual em 2003 um número maior de pessoas escolheu onde 
morar baseando-se em quão perto estarão do trabalho? Qual é a estimação por ponto da proporção de 
pessoas que se mudaram em 2003 que escolheram a nova região porque a localização é conveniente 
para o trabalho? Qual é a sua conclusão de pesquisa? Use а = 0,05. 


Um artigo sobre a maneira de dirigir publicado no município de Strathcona, em Alberta, no Canadá, 
afirmou que 48% dos motoristas não paravam nos cruzamentos com sinal fechado nas estradas do 
município (Edmonton Journal, 19 de julho de 2000). Dois meses mais tarde, um estudo de acompa- 
nhamento coletou dados a fim de verificar se essa porcentagem se modificara. 


a. Formule as hipóteses para determinar se a proporção dos motoristas que não paravam nos cruza- 
mentos com sinal fechado havia modificado. 

b. Suponha que o estudo tenha revelado que 360 dentre 800 motoristas não paravam nos cruzamen- 
tos com sinal fechado. Qual é a proporção amostral Qual é o valor p? 

c. Com а = 0,05, qual é a sua conclusão? 


Em uma matéria de capa, a Business Week publicou informações a respeito dos hábitos de dormir dos 
norte-americanos (Business Week, 26 de janeiro de 2004). O artigo afirmou que a privação do sono 
leva a uma série de problemas e apontou que o deixar de dormir provoca acidentes fatais nas estra- 
das. Cingiienta e um por cento dos motoristas adultos admitem dirigir enquanto estão sonolentos. Um 
pesquisador aventou a hipótese de que essa questão era um problema ainda maior para as pessoas que 
trabalham em turnos da noite. 


a. Formule as hipóteses que podem ser usadas para ajudar a determinar se mais de 51% da população 
de trabalhadores do turno da noite admitem dirigir enquanto estão sonolentos. 

b. Uma amostra de 500 trabalhadores do turno da noite revelou que 232 admitiram dirigir enquanto 
estavam sonolentos. Qual é a proporção amostral? Qual é o valor p? 

c. Com а = 0,01, qual é a sua conclusão? 


A Drugstore.com foi a primeira empresa de comércio eletrônico a oferecer produtos de farmácia e per- 
fumaria a varejo pela internet. Os clientes da Drugstore.com tinham a oportunidade de comprar pro- 
dutos para a saúde, beleza, cuidados pessoais, bem-estar e farmacêuticos pela internet. Ao final de dez 
meses de operação a empresa relatou que 44% das encomendas eram feitas por clientes que já haviam 
comprado anteriormente (Drugstore.com Annual Report, 2 de janeiro de 2000). Suponha que a 
Drugstore.com use uma amostra de encomendas de clientes a cada trimestre para determinar se a pro- 
porção de encomendas de clientes que já compraram anteriormente se modificou do p = 0,44 original. 
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a. Formule as hipóteses nula e alternativa. 

b. Durante o primeiro trimestre, uma amostra de 500 encomendas exibiu 205 clientes que já haviam 
comprado anteriormente. Qual é o valor p? Use а = 0,05. Qual é a sua conclusão? 

c. Durante o segundo trimestre, uma amostra de 500 encomendas exibiu 245 clientes que já haviam 
comprado anteriormente. Qual é o valor p? Use а = 0,05. Qual é a sua conclusáo? 


Resumo 


O teste de hipóteses é um procedimento estatístico que usa dados amostrais para determinar se a afirma- 
ção a respeito do valor de um parámetro populacional deve ou não ser rejeitada. As hipóteses são duas afir- 
mações antagônicas sobre um parâmetro populacional. Uma afirmação se denomina hipótese nula (Hy), e 
а outra, hipótese alternativa (H,). Na Seção 9.1, apresentamos diretrizes para o desenvolvimento de hipó- 
teses relativas a três situações que são encontradas freqüentemente na prática. 

Quando se quiser que dados históricos ou outras informações constituam uma base para se supor que 
o desvio padrão da população seja conhecido, o procedimento de teste de hipóteses se baseará na distri- 
buição normal padrão. Quando se quiser que o seja desconhecido, o desvio padrão s da amostra será usado 
para estimar с e o procedimento de teste de hipóteses se baseará na distribuição +. Em ambos os casos, а 
qualidade dos resultados depende tanto da forma da distribuição populacional quanto do tamanho da 
amostra. Se a população tiver uma distribuição normal, ambos os procedimentos de teste de hipóteses 
serão aplicáveis, até mesmo com tamanhos de amostra pequenos. Se a população não estiver normalmen- 
te distribuída, tamanhos de amostra maiores serão necessários. Diretrizes gerais sobre o tamanho da amos- 
tra foram apresentadas nas Seção 9.3 e 9.4. No caso de testes de hipóteses a respeito de uma proporção 
populacional, o procedimento de testes de hipóteses utiliza uma estatística de teste baseada na distribuição 
normal padrão. 

Em todos os casos, o valor da estatística de teste é usado para calcular um valor p para o teste. O valor p 
é uma probabilidade, calculada usando-se a estatística de teste, que mede o suporte (ou a falta de suporte) 
que a amostra dá à hipótese nula. Se o valor p for menor ou igual ao nível de significância a, a hipótese nula 
poderá ser rejeitada. 

As conclusões do teste de hipóteses também podem ser tomadas ao comparar-se o valor da estatística 
de teste com um valor crítico. Quanto aos testes da cauda inferior, a hipótese nula é rejeitada se o valor da 
estatística de teste for menor ou igual ao valor crítico. Em relação aos testes da cauda superior, a hipótese 
nula é rejeitada se o valor da estatística de teste for maior ou igual ao valor crítico. Os testes bicaudais con- 
sistem em dois valores críticos: uma na cauda inferior da distribuição amostral e um na cauda superior. 
Nesse caso, a hipótese nula é rejeitada se o valor da estatística de teste for menor ou igual ao valor crítico 
na cauda inferior ou maior ou igual ao valor crítico na cauda superior. 


Glossário 


Hipótese nula A hipótese experimentalmente considerada verdadeira no procedimento de teste de hipóteses. 

Hipótese alternativa A hipótese considerada verdadeira se a hipótese nula for rejeitada. 

Erro do Tipo I O erro de rejeitar Не quando ela é verdadeira. 

Erro do Tipo П O erro de aceitar H quando ela é falsa. 

Nível de significância A probabilidade de se cometer um erro do Tipo I quando a hipótese nula é verda- 
deira enquanto igualdade. 

Teste unicaudal Um teste de hipóteses no qual a rejeição da hipótese nula ocorre para valores da estatís- 
tica de teste em uma cauda de sua distribuição amostral. 

Estatística de teste Uma estatística cujo valor ajuda a determinar se a hipótese nula pode ser rejeitada. 

Valor p Uma probabilidade, calculada usando-se a estatística de teste, que mede o suporte (ou a falta de 
suporte) que a amostra dá à hipótese nula. Quanto a um teste da cauda inferior, o valor p é a probabi- 
lidade de se obter um valor para a estatística de teste tão pequeno ou menor que aquele que é forneci- 
do pela amostra. Em relação a um teste da cauda superior, o valor p é a probabilidade de se obter um 
valor para a estatística de teste tão grande ou maior que aquele que é fornecido pela amostra, Para 
um teste bicaudal, o valor p é a probabilidade de se obter um valor para a estatística de teste tão impro- 
vável ou mais improvável que aquele que é fornecido pela amostra. 
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Valor crítico Um valor que é comparado com a estatística de teste para determinar se Hg deve ser rejeitada. 
Teste bicaudal Um teste de hipóteses no qual a rejeição da hipótese nula ocorre para valores da estatísti- 


ca de teste em qualquer uma das caudas de sua distribuição amostral. 


Fórmulas-Chave 


Estatística de Teste para Testes de Hipóteses a Respeito de uma Média Populacional: є Conhecido 


X 7 Но 
= — = 9.1 
z= Vn (9.1) 
Estatística de Teste para Testes de Hipóteses a Respeito de uma Média Populacional: е Desconhecido 
X 7 to 
t= — = 9.4 
s/Vn 64 
Estatística de Teste para Testes de Hipóteses a Respeito de uma Proporcáo Populacional 
2= Р-р (9.6) 


Exercícios Suplementares 


46. 


47. 


48. 


Uma linha de produção opera com um peso médio de preenchimento de 453 g por recipiente. 

Preencher com um volume maior ou com um volume menor constitui um sério problema e, quando 

é detectado, exige que o operador interrompa a linha de produção para reajustar o mecanismo de 

enchimento. A partir de dados passados, presume-se um desvio padrão populacional o = 22,67 р. 

Um inspetor de controle da qualidade seleciona uma amostra de 30 itens a cada hora e, nesse momen- 

to, toma a decisão de interromper ou não a linha de produção para fazer o reajuste. O nível de signi- 

ficância é a = 0,05. 

a. Estabeleça o teste de hipótese para essa aplicação de controle da qualidade. 

b. Se uma média amostral x = 462,6 g tiver sido encontrada, qual é o valor р? Qual ação você reco- 
mendaria? 

c. Se uma média amostral X = 448,4 g tiver sido encontrada, qual é o valor p? Qual ação você reco- 
mendaria? 

d. Use o critério do valor crítico. Qual é a regra de rejeição para o procedimento de teste de hipóte- 
ses apresentado anteriormente? Repita os itens (b) e (c). Você chegaria à mesma conclusão? 


Na Western University, a média histórica das pontuações nos exames para obtenção de bolsas de estudo 
correspondente às inscrições feitas por calouros é 900. Presume-se que o desvio padrão histórico da 
população o = 180 seja conhecido. Anualmente, o vice-reitor usa uma amostra das inscrições para deter- 
minar se a média de pontuação nos exames correspondente às inscrições dos calouros se modificou. 


a. Estabeleça as hipóteses. 

b. Qual é a estimação por intervalo de confiança de 95% da média populacional de pontuação nos 
exames se uma amostra de 200 inscrições tiver produzido uma média amostral x = 935? 

c. Use o intervalo de confiança para realizar um teste de hipóteses. Usando а = 0,05, qual é a sua 
conclusão? 

d. Qual é o valor p? 


O salário anual médio da população de professores do ensino público no Estado de Nova York é 
US$ 45.250. Uma média amostral do salário anual médio da população de professores do ensino 
público na cidade de Nova York é US$ 47 mil (Time, 3 de abril de 2000). Suponha que os resultados 
relativos à cidade de Nova York se baseiem em uma amostra de 95 professores. Suponha que o des- 
vio padrão o da população seja US$ 6.300. 


a. Formule as hipóteses nula e alternativa que podem ser usadas para determinar se os dados amos- 
trais sustentam a conclusão de que os professores do ensino público da cidade de Nova York têm 
uma média salarial mais elevada do que os professores do ensino público do estado de Nova York. 

b. Qual é o valor p? 

c. Use а = 0,01. Qual é a sua conclusão? 
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49. De acordo com a National Association of Colleges and Employers, no ano 2000, o salário médio anual 


50. 


51. 


32. 


53. 


54. 


dos graduados em contabilidade formados em Administracáo era de US$ 37 mil (Time, 8 de maio de 
2000). Em um estudo de acompanhamento realizado em junho de 2001, uma amostra de 48 gradua- 
dos com major em Contabilidade produziu uma média amostral de US$ 38.100 e um desvio padrão 
de US$ 5.200. 


a. Formule as hipóteses nula e alternativa que podem ser usadas para determinar se os dados amos- 
trais sustentam a conclusão de que os graduados em Contabilidade em 2001 tinham um salário 
médio maior que o salário médio anual de US$ 37 mil no ano 2000. 

b. Qual é o valor p? 

c. Use a = 0,05. Qual é a sua conclusão? 


O College Board divulgou que o número médio de inscrições para o primeiro ano nos colégios e uni- 
versidades públicos é igual a 6 mil (USA Today, 26 de dezembro de 2002). Durante um período de 
inscrição/matrícula recente, uma amostra de 32 colégios e universidades revelou que o número médio 
amostral de inscrições para o primeiro ano foi de 5.812, com um desvio padrão amostral de 1.140. Os 
dados indicam uma alteração no número médio de inscrições? Use а = 0,05. 


Um extenso estudo do custo de assistência médica nos Estados Unidos apresentou dados que mos- 
tram que a média de gastos por segurado do Medicare em 2003 foi de US$ 6.883 (Money, outono de 
2003). Para investigar possíveis diferenças no país, um pesquisador tomou uma amostra de 40 segu- 
rados do Medicare em Indianápolis. Quanto à amostra de Indianápolis, a média de gastos com o 
Medicare. em 2003 foi de US$ 5.980 e o desvio padrão foi de US$ 2.518. 


a. Estabeleça as hipóteses que seriam usadas se quiséssemos determinar se a média anual de gastos 
com o Medicare em Indianápolis é menor que a média nacional. 

b. Use os resultados amostrais apresentados anteriormente para calcular a estatística de teste e o valor p. 

c. Use a = 0,05. Qual é a sua conclusão? 

d. Repita o teste de hipótese usando o critério do valor crítico. 


A câmara de comércio de uma comunidade litorânea do Golfo da Flórida anuncia que uma proprie- 
dade residencial na região está disponível a um custo médio de US$ 125 mil ou menos por lote. 
Suponha que uma amostra de 32 propriedades forneça uma média amostral de US$ 130 mil por 
lote e um desvio padrão amostral de US$ 12.500. Usando um nível de significância de 0,05, teste a 
validade da afirmação feita no anúncio. 


O rendimento médio por ação da população de corporações de serviços financeiros, incluindo a 
American Express, o E*TRADE Group, a Goldman Sachs e a Merrill Lynch, foi de US$ 3 (Business 
Week, 14 de agosto de 2000). Em 2001, uma amostra de 10 corporações de serviços financeiros for- 
neceu os seguintes dados de rendimento por ação: 


1,92 2,16 3,63 3,16 4,02 3,14 2,20 2,34 3,05 2,38 


a. Formule as hipóteses nula e alternativa que podem ser usadas para determinar se o rendimento 
médio por ação da população em 2001 difere dos US$ 3 registrados em 2000. 

b. Calcule a média amostral. 

c. Calcule o desvio padrão da amostra. 

d. Qual é o valor p? 

e. Use а = 0,05. Qual é a sua conclusão? 

Um estudo realizado pela organização Centers for Disease Control (CDC) revelou que 23,3% dos 

adultos são fumantes e que aproximadamente 70% dos que fumam indicam que querem parar de 

fumar (Associated Press, 26 de julho de 2002). A CDC relatou que, das pessoas que fumaram em 

algum período da vida, 50% conseguiram abandonar o hábito. Parte do estudo sugeriu que o índice 

de sucesso para deixar de fumar se elevava de acordo com o nível de educação. Suponha que uma 

amostra de 100 graduados em cursos superiores que fumaram em algum período da vida tenha reve- 

lado que 64 foram capazes de parar de fumar de maneira bem-sucedida. 


5NT. Major Educ. — Designa uma matéria ou área de estudo na qual o estudante se especializa e se gradua (Estados Unidos). 
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55. 


56. 


57. 


58. 


59. 


a. Estabeleça as hipóteses que podem ser usadas para determinar se a população de graduados em cur- 
sos superiores apresenta um índice maior que a população global quando se trata de vencer o hábi- 
to de fumar. 

b. Considerando os dados amostrais, qual é a proporção de graduados em cursos superiores que, tendo 
fumado em algum período da vida, foram capazes de parar de fumar? 

c. Qual é o valor p? Com a — 0,01, qual é a conclusáo do seu teste de hipóteses? 


Uma promogáo de uma empresa aérea para pessoas que fazem viagens de negócios baseia-se na supo- 
sição de que dois terços dessas pessoas usam computadores laptop em viagens de negócios noturnas. 


a. Estabeleça as hipóteses que podem ser usadas para testar a suposição. 

b. Qual é a proporção amostral de uma pesquisa patrocinada pela American Express que revelou que 
355 de 546 pessoas que fazem viagens de negócios usam um computador laptop em viagens de 
negócios noturnas? 

c. Qual é o valor p? 

d. Use a. = 0,05. Qual é a sua conclusão? 


Os funcionários de escritório da Shell Oil foram solicitados a responder qual programação de trabalho 
seria a mais atraente: trabalhar cinco dias de oito horas por semana ou trabalhar quatro dias de dez 
horas por semana (USA Today, 11 de setembro de 2000). Admitamos que p = a proporção da popula- 
ção de funcionários de escritório que preferem trabalhar quatro dias de dez horas por semana. 


a. Estabeleça as hipóteses para o caso de a gerência da Shell estar interessada em obter evidências 
estatísticas que mostrem que mais de 50% dos funcionários de escritório preferem trabalhar qua- 
tro dias de dez horas por semana. 

b. Qual é a proporção amostral se uma amostra de 105 funcionários de escritório tiver revelado que 
67 prefeririam a programação de quatro dias de dez horas? 

c. Qual é o valor p? Use a = 0,01. Qual é a sua conclusão? 


Durante o ano eleitoral de 2004, novos resultados de pesquisa de opinião eram publicados diariamen- 
te. Em uma pesquisa realizada pela IBD/TIPP com 910 adultos, 503 entrevistados revelaram que esta- 
vam otimistas quanto ao cenário nacional, e o índice de popularidade do presidente Bush saltou 4,7 
pontos, atingindo 55,3 (Investor's Business Daily, 14 de janeiro de 2004). 


a. Qual é a proporção amostral dos entrevistados que estavam otimistas em relação ao cenário nacional? 

b. Um gerente de campanha quer afirmar que essa pesquisa indica que a maioria dos adultos está oti- 
mista quanto ao cenário nacional. Construa um teste de hipóteses de forma que a rejeição da hipó- 
tese nula possibilite a conclusão de que a proporção otimista é maior que 50%. 

c. Use os dados da pesquisa de opinião para calcular o valor p para o teste de hipóteses do item (b). 
Explique ao gerente o que significa o valor p em relação ao nível de significância dos resultados. 


Uma estação de rádio de Myrtle Beach anunciou que pelo menos 90% dos hotéis e motéis estariam 
lotados no fim de semana do Memorial Day. A estação aconselhou os ouvintes a fazerem reservas 
antecipadamente, caso planejassem passar o fim de semana no balneário. No sábado à noite, uma 
amostra de 58 hotéis e motéis revelou que 49 exibiam o anúncio “sem vagas” e 9 “com vagas". Qual 
é a sua reação à afirmação da estação de rádio depois de ver a evidência da amostra? Use a = 0,05 
ao realizar o teste estatístico. Qual é o valor p? 


Os indicadores de saúde ambiental incluem a qualidade do ar, a qualidade da água e a qualidade dos 
alimentos. Há 25 anos, 47% das amostras de alimentos norte-americanas continham resíduos de 
defensivos agrícolas (U.S. News & World Report, 17 de abril de 2000). Em um estudo recente, 44 
de 125 amostras de alimentos continham resíduos de defensivos agrícolas. 


a, Estabeleça as hipóteses que podem ser usadas para mostrar que a proporção populacional sofreu 
um declínio. 

b. Qual é a proporção amostral? 

c. Qual é o valor p? 

d. Use а = 0,01. Qual é a sua conclusão? 


Estudo de Caso | — Quality Associates, Inc. 


A Quality Associates, Inc., uma firma de consultoria, orienta seus clientes a respeito de procedimentos 
amostrais e estatísticos que podem ser usados para controlar seus processos de manufatura. Em uma apli- 
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cação em particular, um cliente deu à Quality Associates uma amostra de 800 observações feitas durante 
um período em que o processo do cliente estava operando satisfatoriamente. O desvio padrão da amostra 
para esses dados era 0,21; portanto, com tantos dados, presumiu-se que o desvio padrão da população fosse 
0,21. A Quality Associates sugeriu então que amostras aleatórias de tamanho 30 fossem tomadas periodi- 
camente para monitorar o processo em base contínua. Ao analisar as novas amostras, o cliente poderia 
saber rapidamente se o processo estava operando satisfatoriamente. Quando o processo não estivesse ope- 
rando satisfatoriamente, medidas corretivas poderiam ser tomadas para eliminar o problema. A especifica- 
ção do projeto indicava que a média do processo devia ser 12. O teste de hipóteses sugerido pela Quality 
Associates foi o seguinte: 


Ну; и = 12 
Hy и * 12 


Medidas corretivas serão tomadas sempre que Н for rejeitada. 

As amostras a seguir foram coletadas em intervalos horários durante o primeiro dia de operação do 
novo procedimento de controle estatístico do processo. Esses dados estão disponíveis no conjunto de 
dados (data set) Quality. : 


Amostra | Amostra 2 Amostra 3 Amostra 4 
+55 1,62 91 2,02 
.62 ‚11,69 36 2,02 
^2 1,59 ‚75 ` 1205 
‚75 1,82 95 2,18 
90 1,97 2,14 2,4 
64 171 72? 2,07 
11,80 1,87 61 2,05 
2,03 2,10 ‚85 64 

194 2,01 2,6 2,39 

92 1,99 11,91 .65 
2,13 2,20 2,12 2,11 
2,09 2,16 61 90 
11,93 2,00 221 2,22 
2,21 2,28 ‚56 ‚88 
2,32 239 195 2,03 

+93 2,00 201 2,35 
1,85 1,92 2,06 2,09 

76 1,83 ‚76 77 
2,16 12,23 82 2,20 
11,77 1,84 2,12 49 
2,00 2,07 ,60 2,30 
2,04 2,1! 95 227 

98 2,05 ‚96 2,29 
2,30 2,37 222 2,47 
12,18 225 75 2,03 
11,97 2,04 96 247 
2,17 2,24 95 1,94 

.85 1,92 ,89 1,97 
2,30 237 , ‚88 2,23 
2,15 222 .93 2,25 


Relatório Administrativo 
1. Realize um teste de hipóteses para cada amostra com um nível de significância 0,01 e determine quais 
medidas, se for o caso, devem ser tomadas. Forneça a estatística de teste e o valor p para cada teste. 
2. Calcule o desvio padrão de cada uma das quatro amostras. A suposição de 0,21 para o desvio 
padrão da população parece razoável? 


3. Calcule os limites para a média amostral 7 em torno de 4 = 12 de forma que, estando a nova média 
amostral dentro desses limites, considere que o processo esteja funcionando satisfatoriamente. Se 
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X ultrapassar o limite máximo ou se X ficar abaixo do limite mínimo, medidas corretivas serão toma- 
das. Esses limites se denominam limites máximo e mínimo de controle para fins de controle da qua- 
lidade. 


4. Discuta as implicações de se mudar o nível de significância para um valor maior. Qual equívoco ou 
erro poderia se avolumar se o nível de significáncia fosse aumentado? 


Estudo de Caso 2 — Estudo do Desemprego 


Mensalmente, o U.S. Bureau of Labor Statistics publica uma série de estatísticas sobre o número de pes- 
soas que estáo desempregadas nos Estados Unidos e a média de tempo em que estáo desempregadas. Em 
relação a novembro de 1988, o Bureau of Labor Statistics divulgou que a duração média nacional de 
desemprego era 14,6 semanas. 

O prefeito de Filadélfia solicitou um estudo sobre a situação de desemprego na cidade. Uma amostra 
de 50 habitantes desempregados de Filadélfia incluiu dados sobre a idade e o número de semanas em que 
estavam sem emprego. 

Apresentamos a seguir uma parte dos dados coletados em novembro de 1998. O conjunto de dados 
completo está disponível no arquivo BLS. : 


Idade Semanas Idade Semanas Idade Semanas 
56 22 22 11 25 12 
35 19 48 6 25 | 
22 7 48 22 59 33 
57 37 25 5 49 26 
40 18 40 20 33 13 


Relatório Administrativo 


1. Use estatística descritiva para resumir os dados. 

2. Desenvolva uma estimação por intervalo de confiança de 95% da média de idade das pessoas 
desempregadas em Filadélfia. 

3. Realize um teste de hipóteses para determinar se a duração média do desemprego em Filadélfia é 
maior que a duração média nacional de 14,6 semanas. Use um nível de significância de 0,01. Qual 
é a sua conclusão? 

4. Há uma relação entre a idade do indivíduo desempregado e o número de semanas de desemprego? 
Explique. 


Apéndice 9.1 — Testes de Hipóteses com o Minitab 


Descrevemos o uso do Minitab para realizar testes de hipótese a respeito de uma média populacional e de 
uma proporção populacional. 


Média da População: O Conhecido 


Ilustramos nossa exposição usando o exemplo da distância percorrida pela bola de golfe MaxFlight apre- 
sentado na Seção 9.3. Os dados estão na coluna C1 de uma planilha do Minitab. Consideramos que o des- 
vio padrão populacional o —12 seja conhecido e que o nível de significância seja а = 0,05. As etapas а 
seguir podem ser usadas para testar a hipótese Ho: и = 295 contra Н: и + 295. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Basic Statistics 

Etapa3. Escolha 1-Sample Z 

Etapa 4. Quando a caixa de diálogo 1-Sample Z aparecer: 
Digite C] na caixa Samples in columns 
Digite 12 na caixa Standard deviation 
Digite 295 na caixa Test mean 
Selecione Options 


345 


ARQUIV 
DA INTERNET 


BLS 


ARQUIVO 
DA INTERNET 


GolfTest 


346 


© 


ARQUIVO 
DA INTERNET 
AirRating 


ARQUIVO 
DA INTERNET 
WomenGolf 


Estatística Aplicada à Administração e Economia 


Etapa 5. Quando a caixa de diálogol-Sample Z-Options aparecer: 
Digite 95 na caixa Confidence level* 
Selecione not equal na caixa Alternative 
Dé um clique em OK 

Etapa 6. Рё um clique em OK 


Além dos resultados do teste de hipóteses, o Minitab fornece um intervalo de confiança de 95% relativo à 
média da população. 

O procedimento pode ser facilmente modificado para um teste de hipóteses unicaudal ao selecionar-se 
a opção less than ou greater than na caixa Alternative na etapa 5. 


Média da População: с Desconhecido 


As avaliações que 60 viajantes de negócios deram ao Aeroporto Heathrow foram inseridas na coluna C1 
de uma planilha do Minitab. O nível de significância para o teste é а == 0,05, e o desvio padrão o da popu- 
lação será estimado pelo desvio padrão s da amostra, As etapas a seguir podem ser usadas para testar as 
hipóteses Ho: и < 7 contra Н: и > 7. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha Basic Statistics 

Etapa 3. Escolha 1-Sample t 

Etapa 4. Quando a caixa de diálogo 1-Sample t aparecer: 
Digite C1 na caixa Samples in columns 
Digite 7 na caixa Test mean 
Selecione Options 

Etapa 5. Quando a caixa de diálogo 1-Sample t aparecer: 
Digite 95 na caixa Confidence level" 
Selecione greater than na caixa Alternative 
Dê um clique em OK 

Etapa 6. Рё um clique em OK 


O estudo de avaliação do Aeroporto Heathrow envolveu uma hipótese alternativa “maior que”. As eta- 
pas anteriores podem ser facilmente modificadas para outros testes de hipótese ao selecionar-se as opções 
less than ou not equal na caixa Alternative na etapa 5. 


Proporção da População 


Ilustramos nossa exposição usando o exemplo do curso de golfe Pine Creek apresentado na Seção 9.5. Os 
dados com as respostas Female (Mulher) e Male (Homem) estão na coluna C1 de uma planilha do Minitab. 
O Minitab usa uma classificação em ordem alfabética para as respostas e seleciona a segunda resposta da 
proporção populacional de interesse. Neste exemplo, o Minitab usa a classificação em ordem alfabética 
Female-Male (Mulher-Homem) para fornecer os resultados correspondentes à proporção populacional de 
respostas Male (Homem). Uma vez que Female (Mulher) é a resposta de interesse, modificamos a ordem 
de classificação do Minitab da seguinte maneira: Selecione qualquer célula da coluna e use a seqüéncia 
Editor > Column > Value Order. Depois escolha a opção de introduzir uma ordem especificada pelo usuá- 
rio. Certifique-se de que as respostas estão classificadas na ordem Male-Female (Homem-Mulher) na 
caixa Define-an-Order. A rotina 1 Proportion do Minitab fornecerá então os resultados do teste de hipó- 
tese correspondentes à proporção populacional de golfistas mulheres. Prosseguimos da seguinte maneira: 


Etapa 1. Selecione o menu Stat 
Etapa 2. Escolha Basic Statistics 
Etapa 3. Escolha 1 Proportion 


* O Minitab fornece simultaneamente os resultados do teste de hipóteses e os resultados de estimação por intervalo. O usuário pode 
selecionar qualquer nível de confiança para a estimação por intervalo da média populacional: aqui, sugerimos um intervalo de con- 
fiança de 95%. 
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Etapa 4. Quando a caixa de diálogol Proportion aparecer: 
` Digite C1 na caixa Samples in Columns 

Selecione Options 

Etapa 5. ` Quando a caixa de diálogo 1 Proportion-Options aparecer: 
Digite 95 na caixa Confidence level* 
Selecione 0,20 na caixa Test proportion 
Selecione greater than na caixa Alternative 
Selecione Use test and interval based on normal distribution 
Dé um clique em ОК 

Etapa 6. Рё um clique em OK 


Apêndice 9.2 — Testes de Hipóteses com o Excel 


O Excel não oferece rotinas incorporadas para os testes de hipóteses apresentados neste capítulo. Para tratar 
dessas situações, apresentamos as planilhas do Excel que projetamos para testar hipóteses a respeito de uma 
média populacional e de uma proporção populacional. As planilhas são fáceis de usar e podem ser modifica- 
das para manipular quaisquer dados amostrais. As planilhas estão disponíveis no seguinte endereço: 
http:/fthomsonleaming.com.br/estatapl.htm. 


Média da População: с Conhecido 


Ilustramos nossa exposição usando o exemplo da distância percorrida pela bola de golfe MaxFlight apre- 
sentado na Seção 9.3. Os dados estão na coluna A de uma planilha do Excel. Consideramos que o desvio 
padrão populacional с —12 seja conhecido e que o nível de significância seja а = 0,05. As etapas a seguir 
podem ser usadas para testar a hipótese Ho: и = 295 contra H; и + 295. 

Consulte a Figura 9.11 à medida que descrevermos o procedimento. A planilha em segundo plano exibe 
as células com as fórmulas utilizadas para calcular os resultados apresentados na planilha em primeiro 
plano. Os dados são inseridos nas células A2:A51. As etapas a seguir são necessárias para se usar o mode- 
lo (template) para esse conjunto de dados. 


Etapa 1. Digite o intervalo de dados A2:A51 na célula de fórmula =CONT.NÚM na célula D4. 
Etapa2. Digite o intervalo de dados A2:A51 na célula de fórmula = MÉDIA na célula D5. 
Etapa3. Digite o desvio padrão populacional о = 12 na célula D6. 

Etapa 4. Digite o valor hipotético 295 relativo à média populacional na célula D8. 


As fórmulas de célula restantes fornecerão automaticamente o erro padrão, o valor z da estatística de teste 
e trés valores p. Uma vez que a hipótese alternativa (uy * 295) indica um teste bicaudal, o valor p 
(Bicaudal) na célula D15 é usado para se tomar a decisão de rejeição. Com o valor p = 0,1255 > q = 
0,05, a hipótese nula não pode ser rejeitada. Os valores p nas células D13 ou D14 seriam usados se as hipó- 
teses envolvessem um teste unicaudal. 

Esse modelo pode ser usado para se fazer os cálculos de teste de hipóteses de outras aplicações. Por 
exemplo, para realizar um teste de hipótese para um novo conjunto de dados, insira os novos dados amos- 
trais na coluna A da planilha. Modifique as fórmulas contidas nas células D4 e D5 para que correspondam 
ao novo intervalo de dados. Digite o desvio padrão da população na célula D6 e o valor hipotético para a 
média populacional na célula D8 para obter os resultados. Se os novos dados amostrais já tiverem sido sin- 
tetizados, eles não precisam ser inseridos na planilha. Nesse caso, digite o tamanho da amostra na célula 
D4, a média amostral na célula D5, o desvio padrão da população na célula D6 e o valor hipotético da 
média populacional na célula D8 para obter os resultados. A planilha da Figura 9.11 está disponível no 
arquivo Hyp Sigma Known na página do livro na internet. 


Média da População: с Desconhecido 


Tlustramos nossa exposição usando o exemplo da avaliação do Aeroporto Heathrow apresentado na Seção 
9.4. Os dados estão na coluna À de uma planilha do Excel. O desvio padrão o da população é desconhe- 


* О Minitab fomece simultaneamente os resultados do teste de hipóteses e os resultados de estimação por intervalo. O usuário pode 
selecionar qualquer nível de confiança para a estimação por intervalo da média populacional: aqui, sugerimos um intervalo de con- 
fiança de 95%. 
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cido e será estimado por meio do desvio padrão s da amostra. O nível de significância é a = 0,05. Os pas- 


sos a seguir podem ser usados para testar a hipótese Ho: и = 7 contra Н: и > 7. 


Consulte a Figura 9.12 à medida que descrevermos o procedimento. À planilha em segundo plano exibe 
as fórmulas contidas em células que são usadas para calcular os resultados apresentados na versão da pla- 
nilha em primeiro plano. Os dados são inseridos nas células A2:A61. As etapas a seguir são necessárias 


para se usar o modelo para esse conjunto de dados. 


populacional para o caso em que с é conhecido 


Figura 9.11 Planilha do Excel para testes de hipótese a respeito de uma média 


E 


D E 


Teste de Hipótese a Respei 


ito de uma Média Populacional 


Valor Hipotético 


1 
2 |. 303 para о Caso em que c é Conhecido 
3| 282 
4 |. 289: Tamanho da Amostra [-CONT.NUM(AZ: AST) 
5 298 Média Amostral =MEDIA(AZ:AS!) И 
6 d Desvio Padrão da Popul. | 12 
(7 
8 


Erro Padráo 


Estatística de Teste 2 


Valor p (Cauda Inferior) 


Valor p (Cauda Superior) ||=: 


Valor p (Bicaudal) 


Etapa 1. 
Etapa 2. 
Etapa 3. 
Etapa 4. 


A B С aD d E. 

1 | Yards Teste de Hipótese a Respeito de uma Média 

2 303 Populacional para o Caso em que o é Conhecido 

3 282 

4| 289 Tamanho da Amostra 30 

5| 298 Média Amostral | 297.6: 

6 283 Desvio Padrão da Popul. 12 
[27] 317 
|8) 297 Valor Hipotético 295 

[9| 308 
m 317 Erro Padráo 

iH | 293 Estatística de Testez |. 1,53 ; 

|12) 284 

113| 290 Valor p (Cauda Inferior) 

[14] 304 Valor p (Cauda Superior) 

115] 290 Valor р (Bicaudal) 

16| 311 

17| 305 | 

49| 305 | 

50) 301 | 

51| 292 Е 

52 | | 


Digite o intervalo de dados A2:A61 na célula de fórmula = CONT.NÜM па célula D4. 
Digite o intervalo de dados A2:A61 na célula de fórmula = MÉDIA na célula D5. 
Digite o intervalo de dados A2:A61 na célula de fórmula =DESVPAD na célula D6. 
Digite o valor hipotético 7 relativo à média populacional na célula D8 
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As fórmulas de célula restantes forneceráo automaticamente о erro padrão, o valor г da estatística de teste, 
o número de graus de liberdade e três valores p. Uma vez que a hipótese alternativa (4 > 7) indica um 
teste da cauda superior, o valor p (Cauda Superior) na célula D15 é usado para se tomar a decisão. 


Figura 9.12 Planilha do Excel para testes de hipóteses a respeito de uma média populacional 
para o caso em que с é desconhecido 


n E DE —— Б Bu ET] 
1| Rating Teste de Hipóteses a Respeito de uma Média Populacional 
2[ .5 E NI para o Caso em que c é Desconhecido 
3 7 

[4 | 8 -i Tamanho da Amostra | CONT. АТАТ . E o [| 
BLA Média Amostral EDIR | 
6 8 | Desvio Padrão da Popul. [ZDESVPAD(A2:A61 - 
7: 81 

E * 8 Valor Hipotético | 7 L. 
9 7 

110 8 


x 
= 
ra 
o 


Estatística de Teste t | =(D5-D8)/DIO - 


d Erro Padrão FEDORA DI клан 
+ = — 
EB 


B Graus de Liberdade | D4-1 um Nota: As linhas 18 а 
13 7 | 58 estáo ocultas. 
14| ^8 | Valor p (Cauda Inferior) AJDISTTCDITTLDI2,),1- 12,1 
15|: 8. į [Valor p (Cauda Superior) {=1-р14 i 
16$] 97] Valor p (Bicaudal) |-2* MÍNIMO(DIA4,DIS Е 
Vit | | _ ` 
59] 7 | | A | B] Сс. FD [| E 
60] "7^ | 1 | Rating Teste de Hipóteses a Respeito de uma Média 
61 8 . 2| 5 Populacional o Caso em que o é Desconhecido 
62 |3 7 
4/08 Tamanho da Amostra 601 
[5 7 Média Amostral 725 
6 8 Desvio Padrão da Popul. | ` i 
71. 80) 
8 - 8 1 Valor Hipotético 7 
Г, 
9|.7 | 
10 8 | + Erro Padrão 
u 10 | Estatística de Teste t 
125 6 | Graus de Liberdade 
13; 7 
14| 8 Valor р (Cauda Inferior) j| .0,964' 
at 8 Valor p (Cauda Superior) | 0;0353 
[16 9 Valor p (Bicaudal) | 0,0706: 
17 7 
59 7 
7 
8. 
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Com o valor p = 0,353 « a = 0,05, a hipótese nula é rejeitada. Os valores p nas células Di4 ou D16 
seriam usados se as hipóteses envolvessem um teste da cauda inferior ou um teste bicaudal. 

Esse modelo pode ser usado para se fazer os cálculos de teste de hipóteses de outras aplicações. Por 
exemplo, para realizar um teste de hipóteses para um novo conjunto de dados, insira os novos dados amos- 
trais na coluna A da planilha e modifique as fórmulas contidas nas células D4 e D5 e D6 para que corres- 
pondam ao novo intervalo de dados. Digite o valor hipotético da média populacional na célula D8 para 
obter os resultados. Se os novos dados amostrais já tiverem sido sintetizados, eles não precisam ser, inse- 
ridos na planilha. 

Nesse caso, digite o tamanho da amostra na célula D4, a média amostral na célula D5, o desvio padrão 
da amostra na célula D6 e o valor hipotético da média populacional na célula D8 para obter os resultados. 
A planilha da Figura 9.12 está disponível no arquivo Hyp Sigma Unknown na internet. 


Proporção da População 


Пиѕіхатоѕ nossa exposição usando os dados da pesquisa do curso de golfe Pine Creek apresentados na Seção 
9.5. Os dados dos golfistas Homem ou Mulher estão na coluna A de uma planilha do Excel. Consulte a Figura 


Valor Hipotético | 


9.13 à medida que descrevermos o procedimento. A planilha em segundo plano exibe as células com as fór- 
DAINTERNET mulas utilizadas para calcular os resultados apresentados na planilha em primeiro plano. 
Hypothesis p 
Figura 9.13 Planilha do Excel para testes de hipóteses a respeito de uma proporção populacional 
Й А [в [ [s i Lo Do t+ EA 
| 1 | Golfista Estimação por Intervalo de uma Proporção Populacional 
: 2 
| 3 | Homem | Tamanho da Amostra 
| 4 |* Mulher -| Resposta de Interesse 
[5 Homem: | Contagem da Resposta 
6 Homem } Proporção da Amostra 
7 | Mulher | 
| 8 |: Homem | Valor Hipotético 0,20 
9 | Homem | 
10 | Mulher `| Erro Padrão ERAIZDS*(-D8JD3) é, 4 
11 | Homem | Estatística de Teste z 3 E" 
12 | Homem.| 
13 | Homem | Valor p (Cauda Inferior) |-DIST.NORM(D11)." . * 
14 | Homem ^ Valor p (Cauda Superior) в" 
[15 |. Homem | Valor p (Bicaudal) 2*MÍNIMO(D13;D14). . | 
[16 | Mulher | 
400 | -Homem | A B C é D | Е 
401 | Homem”, 1) Estimação por Intervalo de uma Proporção Populacional 
402 joe pe cse 2| [ 
3 | Homem | Tamanho da Amostra É”. - 
4 | Mulher | Resposta de Interesse | * Mulher 
5 |. Homem | Contagem da Resposta 100 . 
Nota: As linhas 17 6 | Homem | Proporção da Amostra ||. 0,2500, 
a 399 estão т] ы 
ocultas. 8. 
9 


e 
É 
E 


Erro Padrão |. 0,0200* 


11 |" Homems! Estatística de Testez]; 250 - {| 
12 | Homem ; ; 
13 | Homem | Valor p (Cauda Inferior) || 
114 | Homem | [Valor p (Cauda Superior) 
`15 | Homem. Valor p (Bicaudal) 
16 | Mulher ] 
400| Homem ` 
401 |. Homem | 
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Os dados estão inseridos nas células A2:A401. As etapas a seguir podem ser usadas para testar a hipótese 
Ho: p = 0,20 contra H,: p > 0,20. 


Etapa 1. Digite o intervalo de dados A2:A401 na célula de fórmula =CONT.VALORES na célula D3. 
Etapa 2. Digite Mulher como a resposta de interesse na célula D4. 

Etapa3. Digite o intervalo de dados A2:A401 na célula de fórmula =CONT.SE na célula 05. 
Etapa 4. Digite o valor hipotético 0,20 relativo à proporção populacional na célula 08. 


As fórmulas de célula restantes fornecerão automaticamente o erro padrão, o valor z da estatística de teste 
e três valores p. Uma vez que a hipótese alternativa (ро > 0,20) indica um teste da cauda superior, o valor 
p (Cauda Superior) na célula D14 é usado para se tomar a decisão. Com o valor p = 0,0062 < a = 0,05, 
a hipótese nula é rejeitada. Os valores p nas células D13 ou 015 seriam usados se a hipótese envolvesse 
um teste da cauda inferior ou um teste bicaudal. 

Esse modelo pode ser usado para se fazer os cálculos de teste de hipóteses de outras aplicações. Por 
exemplo, para realizar um teste de hipóteses para um novo conjunto de dados, insira os novos dados amos- 
trais na coluna A da planilha. Modifique as fórmulas contidas nas células D3 e D5 para que correspondam 
ao novo intervalo de dados. Digite a resposta de interesse na célula D4 e o valor hipotético da proporção 
populacional na célula D8 para obter os resultados. Se os novos dados amostrais já tiverem sido sintetiza- 
dos, eles não precisam ser inseridos na planilha. Nesse caso, digite o tamanho da amostra na célula D3, a 
proporção amostral na célula D6 e o valor hipotético da proporção populacional na célula D8 para obter 
os resultados. À planilha da Figura 9,13 está disponível no arquivo Hypothesis p na internet. 


351 


CAPÍTULO 10 


Comparações Envolvendo 
Médias 


A ESTATÍSTICA NA PRÁTICA 


FISONS CORPORATION 
Rochester, NY 


A Fisons Corporation de Rochester, no estado de Nova York, é uma unidade da Fisons Plc., do Reino Unido. 
À empresa iniciou suas operações nos Estados Unidos em 1966. 

A Fisons Pharmaceutical Division utiliza amplos procedimentos estatísticos para testar e desenvolver novos 
medicamentos. O processo de testes na indústria farmacêutica geralmente é composto por três etapas: (1) 
testes pré-clínicos, (2) testes de uso e de segurança em longo prazo e (3) testes da eficácia clínica. Em cada 
etapa sucessiva, decresce a chance de um medicamento ser aprovado nos rigorosos testes; entretanto, o 
custo da realização de testes adicionais se eleva drasticamente. Levantamentos realizados pela indústria indi- 
cam que o processo de pesquisa e desenvolvimento de um novo medicamento custa, em média, US$ 250 
milhões e demanda 12 anos. Portanto, é importante eliminar novos medicamentos malsucedidos nas fases 
iniciais do processo de testes, bem como identificar aqueles que são promissores para serem submetidos a 
testes adicionais. 

A estatística desempenha papel importante nas pesquisas farmacêuticas, sendo uma área em que o con- 
trole governamental é severo e aplicado com rigor. Nos testes pré-clínicos, estudos estatísticos de duas ou 
três populações normalmente são utilizados para determinar se o novo medicamento deve continuar a ser 
estudado no programa de uso e de segurança em longo prazo, As populações podem consistir no novo medi- 
camento, no controle e no medicamento padrão. O processo de testes pré-clínicos inicia-se quando um novo 
medicamento é enviado à equipe de Farmacologia para avaliação de sua eficácia — a capacidade de o medica- 
mento produzir os efeitos desejados. Como parte do processo, um estatístico é solicitado a projetar um expe- 
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rimento que possa ser usado para testar a nova droga. O projeto deve especificar o tamanho da amostra e os 
métodos estatísticos de análise. Em um estudo de duas populações, uma amostra é usada para se obterem 
dados sobre a eficácia do novo medicamento (população 1) e uma segunda amostra é utilizada para se obte- 
rem dados sobre a eficácia de um medicamento padrão (população 2). Dependendo da utilização pretendida, 
o novo medicamento e o medicamento padrão são testados em diversas áreas, como neurologia, cardiologia 
e imunologia. Na maioria dos estudos, o método estatístico envolve o teste de hipóteses quanto à diferença 
entre as médias da população do novo medicamento e a população do medicamento padrão. Se faltar eficácia 
a um novo medicamento ou se ele produzir efeitos indesejáveis em comparação com o medicamento padrão, 
esse novo medicamento será rejeitado e eliminado dos testes adicionais. Somente os novos medicamentos que 
apresentam comparações promissoras em relação aos medicamentos padrão são encaminhados ao programa 
de testes de uso e de segurança em longo prazo. 

A coleta de dados adicionais e estudos de populações múltiplas são realizados no programa de testes de uso 
e de segurança em longo prazo e nos programas de testes clínicos. A Food and Drug Administration (FDA) exige 
que os métodos estatísticos sejam definidos antes da realização desses testes para evitar distorções relacionadas 
aos dados. Além disso, para evitar vieses humanos, alguns dos ensaios clínicos são realizados com o método de 
duplo ou triplo-cego. Ou seja, nem o sujeito nem o investigador sabem qual medicamento é administrado a 
quem. Se o novo medicamento cumprir todas as exigências em relação ao medicamento padrão, o pedido de 
registro de uma nova droga é feito na FDA. O pedido de registro é examinado rigorosamente por estatísticos 
e cientistas do departamento. 

Neste capítulo, você aprenderá a construir estimações por intervalo e a fazer testes de hipótese a respeito 
de médias e proporções com duas populações. Serão apresentadas técnicas para analisar amostras aleatórias 
independentes, bem como amostras relacionadas. 


Nos Capítulos 8 e 9, mostramos como desenvolver estimações por intervalo e como realizar testes de hipó- 
tese para situações que envolvem uma média populacional. Neste capítulo, estendemos nossa discussão da 
inferência estatística a aplicações que comparam as médias de duas ou mais populações. Por exemplo, tal- 
vez queiramos desenvolver uma estimação por intervalo da diferença entre a média dos salários iniciais de 
uma população de homens e a média dos salários iniciais de uma população de mulheres, ou testar a hipó- 
tese de que o número médio de horas entre a ocorrência de panes é o mesmo para quatro diferentes 
máquinas. Iniciamos mostrando como desenvolver estimações por intervalo e realizar testes de hipóteses 
a respeito da diferença entre duas médias populacionais, quando se presume que dois desvios padrão 
populacionais sejam conhecidos. 


10.1 INFERÊNCIAS SOBRE A DIFERENÇA ENTRE AS MÉDIAS 
DE DUAS POPULAÇÕES: с, E с, CONHECIDOS 


Admitindo que 44 denota a média da população 1 e и, a média da população 2, vamos nos concentrar nas 
inferências sobre a diferença entre as médias: иу — #7. Para fazermos uma inferência sobre essa diferença, 
selecionamos uma amostra aleatória simples de пу unidades da população 1 e uma amostra aleatória sim- 
ples de n, unidades da população 2. As duas amostras, tomadas separada e independentemente, são cha- 
madas amostras aleatórias simples independentes. Nesta seção, presumiremos que existam informações 
disponíveis, де tal forma que é possível supor que os desvios padrão, с; e 0, das duas populações sejam 
conhecidos antes de se coletarem as amostras. Referimo-nos a essa situação como o caso em que 0, € 95 
são conhecidos. No exemplo a seguir, vamos mostrar como calcular a margem de erro e desenvolver uma 
estimação por intervalo da diferença entre as duas médias populacionais. 


Estimação por Intervalo de || — 4L; 


A Greystone Department Stores, Inc. opera duas lojas em Buffalo, no estado de Nova York: uma no centro 
da cidade e a outra em um shopping center da periferia. O gerente regional notou que os produtos que têm 
boa vendagem em uma loja nem sempre vendem bem na outra. O gerente acredita que essa situação talvez 
se deva a diferenças nos aspectos demográficos entre os clientes das duas localidades. Os clientes tal- 
vez difiram em termos de idade, nível educacional, renda etc. Suponha que o gerente nos peça para inves- 
tigar a diferença entre as médias de idade dos clientes que compram nas duas lojas. 


Capítulo 10 Comparações Envolvendo Médias 


Vamos definir a população 1 como todos os clientes que compram na loja do centro da cidade e a popu- 
lação 2 como todos os clientes que compram na loja da periferia. 


HQ, = média da população 1 (ou seja, a média de idade de todos os clientes que compram 
na loja do centro da cidade). 

Ho = média da população 2 (ou seja, a média de idade de todos os clientes que compram 
na loja da periferia). 


A diferença entre as médias das duas populações é шу — 1t. 
Para estimar И — и), selecionamos uma amostra aleatória simples de пу clientes da população 1 e uma 
amostra aleatória simples de n, clientes da população 2. Então, calculamos as duas médias amostrais: 


X, = média amostral da idade de uma amostra aleatória simples de n, clientes do centro da cidade. 
х, = média amostral da idade de uma amostra aleatória simples de n, clientes da periferia. 


O estimador por ponto da diferença entre as médias das duas populações é a diferença entre as duas 
médias amostrais. 


ESTIMADOR POR PONTO DA DIFERENÇA ENTRE AS MÉDIAS DE DUAS POPULAÇÕES 
i- (10.1) 


A Figura 10.1 apresenta uma visão geral do processo utilizado para estimar a diferença entre as duas 
médias populacionais baseadas em duas amostras aleatórias simples independentes. 


Figura 10.1 Estimando a diferença entre as médias de duas populações 


População | População 2 
Clientes da Loja do Centro А раса А 
. Clientes da Loja da Periferia 
da Cidade 


H = média de idade dos clientes 
da loja da periferia 


у = média de idade dos clientes 
da loja do centro da cidade 


H — ty = diferença entre as médias de idade 


Duas Amostras Aleatórias 
Simples Independentes 


Amostra aleatória simples de n, Amostra aleatória simples de n», 
dientes do centro da cidade clientes da periferia 

X, — média amostral da idade X, — média amostral da idade 

dos clientes da loja do centro da cidade dos clientes da loja da periferia. 


X, — X, = Estimador por ponto деду — 4; 


À semelhanga do que ocorre com outros estimadores por ponto, o estimador por ponto de X, — X; tem 
um erro padrão que descreve a variação da distribuição amostral do estimador. Com duas amostras alea- 
tórias independentes, o erro padrão de X, — X; é o seguinte: 


2 2 
= + 02 
Cam Vim +, (10.2) 
Se ambas as populações tiverem uma distribuição normal, ou se os tamanhos de amostra forem suficiente- 
"mente grandes a ponto de o teorema do limite central nos permitir concluir que as distribuições amostrais 
de X, ede х, possam ser aproximadas a uma distribuição normal, a distribuição amostral de X — X; terá 
uma distribuição normal сот uma média dada por ш; — #2- 
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O erro padrão de 
X| - X; é o desvio 
padráo da 
distribuição 
amostral de 

Xp -Ry 
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А margem de erro 
é obtida 
multiplicando-se o 
erro padrão por 
Zap. 
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Conforme mostramos no Capítulo 8, uma estimação por intervalo é obtida por uma estimação por 
ponto + uma margem de erro. No caso da estimação da diferença entre duas médias populacionais, uma 
estimação por intervalo assumirá a seguinte forma: 


Ху — X; + Margem de erro 


Com a distribuição amostral de X, — x; tendo uma distribuição normal, podemos escrever a margem de 
erro da seguinte maneira: 


91 
n 


9 


Margem de erro = 21503, = Zap 


з (10.3) 


Desse modo, a estimação por intervalo da diferença entre as duas médias populacionais é a seguinte: 


ESTIMAÇÃO POR INTERVALO DA DIFERENÇA ENTRE AS MÉDIAS DE DUAS 
POPULAÇÕES: о, E о, CONHECIDOS 


= z o; 
XpQ— X, E Zan i o 


mom (10.4) 


em que 1 — a é o coeficiente de confiança. 


Retornemos ao exemplo da Greystone. Com base em estudos anteriores sobre os aspectos demográfi- 
cos dos clientes, sabe-se que os desvios padrão das duas populações são o, = 9 anos e ©, = 10 anos, res- 
pectivamente. Os dados coletados de duas amostras aleatórias simples independentes de clientes da 
Greystone forneceram os seguintes resultados. 


Loja do Centro da Cidade Loja da Periferia 


Tamanho da Amostra й = 36 п, = 49 
Média Amostral x, = 40 anos X, — 35 anos 


Usando a Equação 10.1, descobrimos que a estimação por ponto da diferença entre a média de idade 


: das duas populações 6 x, — x; = 40 — 35 = 5 anos. Assim, calculamos que os clientes da loja do centro 


da cidade têm uma média de idade 5 anos maior que a média de idade dos clientes da loja da periferia. 
Agora, podemos usar a Equação 10.4 para calcular a margem de erro e produzir a estimação por interva- 
lo de и — и. Usando 95% de confiança e 2,p = дуу; = 1,96, obtemos: 


o 
Xi T X3 an PEE 
Ln 10? 
40 — 35 + 24 
0 — 35 + 1,96 36 * 49 
5 + 4,06 


Desse modo, a margem de erro é 4,06 anos e a estimação por intervalo de confiança de 95% da dife- 
renga entre as duas médias populacionais é 5 — 4,06 = 0,94 anos a 5 + 4,06 = 9,06 anos. 


Testes de Hipóteses sobre ut, – 2 


Consideremos os testes de hipóteses sobre a diferença entre as médias de duas populações. Usando D, para 
denotar as diferenças hipotéticas entre 4 e 45, as três formas de um teste de hipóteses são as seguintes: 


Ho Hı – о = Do Ho #1 — H2 = Do Hom – из = Do 
Hy и-и < Do Ho: H — > Ро Hy iy - u— * Do 
Em muitas aplicações, Do = 0. Usando o teste bicaudal como exemplo, quando D, = 0, a hipótese nula 


é Ho: Hı — Из = 0. Nesse caso, a hipótese nula é que z, e 4, são iguais. А rejeição de Не leva à conclusão 
de que H y: и, — H2 = O é verdadeira; ou seja, шу e иу não são iguais. 


Capítulo 10 Comparações Envolvendo Médias 


As etapas para realizar os testes de hipótese apresentados no Capítulo 9 sáo aplicáveis aqui. Precisamos 
escolher um nível de significáncia, calcular o valor da estatística de teste e encontrar o valor p para deter- 
minar se a hipótese nula deve ser rejeitada. Com duas amostras aleatórias simples independentes, mostra- 
mos que o estimador por ponto X, — X; tem o erro padrão 0 —_„ dado pela Equação 10.2, e que a distri- 
buição de x, — x, pode ser descrita por uma distribuição normal, Nesse caso, a estatística de teste da dife- 
rença entre as duas médias populacionais quando o e 0; são cónhecidos é a seguinte: 


ESTATÍSTICA DE TESTE PARA TESTES DE HIPÓTESES SOBRE и, — и; QUANDO 
о, E с, SÃO CONHECIDOS 


= бы m (10.5) 


2 2 
o o 
үбү 105 
nm, nm 


Vamos demonstrar o uso dessa estatística de teste no seguinte exemplo de teste de hipóteses. 

Como parte de um estudo para avaliar as diferengas na qualidade educacional entre dois centros de 
ensino, um exame padronizado é aplicado a pessoas que estudam nesses centros. A diferenga entre a média 
das notas obtidas no exame é usada para avaliar as diferenças de qualidade entre os centros. As médias 
populacionais correspondentes aos dois centros sáo as seguintes: 


H, = a média das notas de exame da população de pessoas que estudam no centro A. 


Ho = a média das notas de exame da população de pessoas que estudam no centro B. 


Iniciamos com a hipótese experimental de que não existe diferença entre a qualidade de ensino ministra- 
do nos dois centros. Portanto, em termos da média das notas de exame, a hipótese nula é que gy — 4 = 0. 
Se as evidências amostrais levarem à rejeição dessa hipótese, concluiremos que a média das notas de exame 
diferem com respeito às duas populações. Essa conclusão indica um diferencial de qualidade entre os dois 
centros e sugere que talvez seja necessário um estudo de acompanhamento para investigar a razão desse dife- 
rencial. As hipóteses nula e alternativa desse teste bicaudal são as seguintes: 


Hy jy - i570 
Hyu-u*0. 


O exame padronizado, aplicado anteriormente em uma série de ambientes educacionais, sempre resul- 
tou em um desvio padráo de notas de exame próximo a 10 pontos. Desse modo, usaremos essa informa- 
ção para supor que os desvios padrão populacionais sejam conhecidos, sendo o, = 10e o, = 10. Um nível 
de significância а = 0,05 é especificado para o estudo. 

São tomadas amostras aleatórias simples independentes de п; = 30 indivíduos do centro de ensino A 
en; = 40 indivíduos do centro de ensino B. As respectivas médias amostrais são x, = 82 e x; = 78. Esses 
dados sugerem uma diferença significativa entre as médias populacionais dos dois centros de ensino? Para 
ajudar a responder a essa pergunta, calculamos a estatística de teste usando a Equação 10.5: 


G-E)-D, (8-78-0 
үл o? e 10? 
* t 
n п 30 40 


Calculemos, agora, o valor p para esse teste bicaudal. Uma vez que a estatística de teste z está па cauda 
superior, calculamos primeiramente a área sob a curva à direita de z — 1,66. Usando a tabela de distribui- 
ção normal padrão, verificamos que a área entre a média e 2 = 1,66 é 0,4515. Desse modo, a área da cauda 
superior da distribuição é 0,5000 — 0,4515 = 0,0485. Desde que este seja um teste bicaudal, devemos 
duplicar a área da cauda: valor p = 2(0,485) = 0,0970. Ao seguir a regra habitual de rejeitar Ho se o valor 
р = a, vemos que o valor p igual a 0,970 não nos permite rejeitar Но ao nível de significância 0,05. Os 
resultados amostrais náo fornecem evidéncias suficientes para concluirmos que os centros de ensino dife- 
rem em termos de qualidade. 
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Neste capítulo, usaremos o critério do valor p para o teste de hipóteses, conforme descrevemos no 
Capítulo 9. Entretanto, se você preferir, a estatística de teste e a regra de rejeição pelo valor crítico podem 
ser usadas. Com а = 0,05 e zap = 20025 = 1,96, a regra de rejeição empregando-se o critério do valor crí- 
tico seria rejeitar Но se z = —1,96 ou se z = 1,96. Com z = 1,66, chegamos à mesma conclusão de não 
rejeitar Ho. 

No exemplo anterior, demonstramos um teste de hipóteses bicaudal a respeito da diferença entre duas 
médias populacionais. Testes da cauda inferior e da cauda superior também podem ser considerados. Esses 
testes usam a mesma estatística de teste apresentada na Equação 10.5. O procedimento para calcular o 
valor p e a regra de rejeição para esses testes bicaudais são idênticos aos apresentados no Capítulo 9. 


Conselho Prático 


Na maioria das aplicações dos procedimentos de estimação por intervalo e de teste de hipóteses apresen- 
tados nesta seção, variáveis aleatórias com n; = 30 e n; = 30 são adequadas. Nos casos em que um ou 
outro tamanho de amostra, ou ambos, forem menores que 30, as distribuições das populações tornam-se 
considerações importantes. Em geral, com tamanhos de amostra menores, é mais importante que o analis- 
ta se convença de que é razoável presumir que as distribuições das duas populações sejam, no mínimo, 
aproximadamente normais. 


Exercícios 


Métodos 


1. Considere os seguintes resultados, referentes a duas amostras aleatórias independentes tomadas de 
duas populações: o 


Amostra 1 Amostra 2 
пу = 50 п = 35 
X; = 13,6 x = 11,6 
981722 a= 3,0 


a. Qual é a estimação por ponto da diferença entre as duas médias populacionais? 
b. Apresente um intervalo de confianga de 90% relativo à diferenga entre as duas médias populacionais. 
c. Apresente um intervalo de confiança de 95% relativo à diferença entre as duas médias populacionais. 


2. Considere o seguinte teste de hipóteses: 


Hy -m = 0 
Hæ ti-i > 0 
Os resultados a seguir referem-se a duas amostras independentes tomadas de duas populações. 
Amostra 1 Amostra 2 
n = 40 m = 50 
ï = 25,2 x = 22,8 
901752 a= 60 


a. Qual é o valor da estatística de teste? 
b. Qual é o valor p? 
c. Com a — 0,05, qual é a conclusáo do seu teste de hipóteses? 


3. Considere o seguinte teste de hipóteses: 


Не у-н = 0 
Hyg -u*0 
Os resultados a seguir referem-se a duas amostras independentes tomadas de duas populações: 
Amostra 1 Amostra 2 
n, = 80 п = 70 
X, = 104 J = 106 
о = 8,4 0,7 7,6 


а. Qual é o valor да estatística de teste? 
b. Qual é o valor p? 
c. Com a — 0,05, qual é a conclusáo do seu teste de hipóteses? 
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Aplicações 


4. 


A alta dos preços da gasolina atingiu níveis recordes em 16 estados durante 2003 (The Wall Street 
Journal, 7 de março de 2003). Dois dos estados afetados foram a Califórnia e a Flórida. A American 
Automobile Association relatou um preço médio amostral de US$ 2,04 por galão (US$ 0,54 por litro) 
na Califórnia e um preço médio amostral de US$ 1,72 por galão (US$ 0,46 por litro) na Flórida. Use 
um tamanho de amostra 40 para os dados da Califórnia e um tamanho de amostra 35 para os dados 
da Flórida. Suponha que estudos anteriores indicando os desvios padrão populacionais de 0,10 para 
a Califórnia e de 0,08 para a Flórida sejam razoáveis. 


a. Qual é a estimação por ponto da diferença entre os preços médios populacionais por galão na 
Califórnia e na Flórida? 

b. Com 95% de confiança, qual é a margem de erro? 

c. Qual é a estimação por intervalo de confiança de 95% da diferença entre os preços médios popu- 
lacionais por galão nos dois estados? 


Um estudo realizado pela Cornel] University dos diferenciais de salário entre homens e mulheres rela- 
tou que uma das razões pelas quais os salários dos homens são mais altos que os das mulheres é o 
fato de os homens tenderem a ter mais anos de experiência no trabalho que as mulheres (Business 
Week, 28 de agosto de 2000). Suponha que os seguintes resumos amostrais apresentem os anos de 
experiência correspondentes a cada grupo: 


Homens Mulheres 

n, = 100 пу = 85 

Xj = 14,9 anos X, = 10,3 anos 
9,7 5,2 anos 057 3,8 anos 


a. Qual é a estimação por ponto da diferença entre as duas médias populacionais? 
b. Com 95% de confiança, qual é a margem de erro? 
c. Qual é a estimação por intervalo de confiança da diferença entre as duas médias populacionais? 


As 40 mil corretoras imobiliárias do país estão entre os pequenos negócios mais lucrativos nos Estados 
Unidos. Essas empresas de baixo-perfil encontram empréstimos para os clientes em troca de comissões. 
A Mortgage Bankers Association of America divulga dados sobre o tamanho médio dos empréstimos 
manuseados pelas corretoras imobiliárias (The Wall Street Journal, 24 de fevereiro de 2003). Usando 
dados amostrais coerentes com os dados da Mortgage Bankers Association, uma amostra de 270 emprés- 
timos realizados em 2002 forneceu um valor médio de empréstimos de US$ 175 mil. Dados de 2001 
apresentaram uma amostra de 250 empréstimos realizados, com um valor médio de empréstimos de 
US$ 165 mil. Com base nos dados históricos dos empréstimos, pode-se presumir que os desvios padrão 
populacionais sejam conhecidos, sendo US$ 55 mil em 2002 e US$ 50 mil em 2001. Os dados amos- 
trais indicam um aumento do valor médio de empréstimo entre 2001 e 2002? Use a = 0,05. 

Durante a temporada de 2003, a Major League Baseball tomou medidas para aumentar a velocidade 
de jogo nos jogos de beisebol a fim de manter o interesse da torcida (CNN Headline News, 30 de 
setembro de 2003). Os resultados apresentados a seguir são de uma amostra de 60 jogos disputados 
durante o verão de 2002 e de uma amostra de 50 jogos disputados durante o verão de 2003, A média 
amostral exibe a duração média dos jogos incluídos em cada amostra. 


Temporada de 2002 Temporada de 2003 
n; = 60 пу = 50 
X, = 2 horas e 52 minutos X; = 2 horas e 46 minutos 


a. Uma hipótese de pesquisa era que as medidas tomadas durante a temporada de 2003 reduziriam a 
duração média da população de jogos de beisebol. Formule as hipóteses nula e alternativa. 

b. Qual é a estimação por ponto da redução da duração média dos jogos na temporada de 2003? 

c. Dados históricos indicam que um desvio padrão populacional de 12 minutos é uma suposição 
razoável para ambos os anos. Realize um teste de hipóteses e relate qual é o valor p. Com o nível 
de significância 0,05, qual é a sua conclusão? 

d. Forneça uma estimação por intervalo de confiança de 95% sobre a redução da duração média dos 
jogos na temporada de 2003. 

e. Qual foi a redução percentual da média de tempo dos jogos de beisebol durante a temporada de 
2003? A administração deve estar satisfeita com os resultados da análise estatística? Discuta o 
assunto. A duração dos jogos de beisebol deve continuar a ser uma preocupação no futuro? 
Explique. 
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8. Amold Palmer e Tiger Woods são dois dos melhores golfistas da história desse esporte. Para mostrar 
como esses dois golfistas se comparariam se ambos estivessem jogando em sua melhor forma, os 
seguintes dados amostrais apresentam os resultados de suas pontuações em 18 buracos durante um 
campeonato promovido pela PGA. As pontuações de Palmer referem-se ao que ele obteve em sua 
temporada de 1960, enquanto as pontuações de Woods são de sua temporada de 1999 (Golf Magazine, 
fevereiro de 2000). 


Arnold Palmer Tiger Woods 
n = 112 m = 84 
X, = 69,95 X, = 69,56 


Use os dados amostrais para testar a hipótese de que não existe diferença entre a média populacional 

de pontuações nos 18 buracos para os dois golfistas. 

a. Suponha um desvio padrão populacional igual a 2,5 para ambos os golfistas. Qual é o valor da esta- 
tística de teste? 

b. Qual é o valor p? 

c. Com а = 0,01, qual é a sua conclusão? 


10.2 INFERÊNCIAS SOBRE A DIFERENÇA ENTRE AS MÉDIAS 
DE DUAS POPULAÇÕES: с | E 0; DESCONHECIDOS 


Nesta seção, estendemos a discussão das inferências sobre a diferença entre duas médias populacionais 
para o caso em que os dois desvios padrão, o, e a», são desconhecidos. Nesse caso, usaremos os desvios 
padrão amostrais, s, e 5), para estimar os desvios padrão populacionais desconhecidos. Quando utilizar- 
mos os desvios padrão amostrais, os procedimentos de estimação por intervalo e de teste de hipóteses vão 
se basear na distribuição t em vez da distribuição normal padrão. 


Estimação por Intervalo de д — > 


No exemplo que apresentamos a seguir, mostramos como calcular a margem de erro e como desenvolver 
umaestimação por intervalo da diferença entre duas médias populacionais, quando o, e o, são desconhe- 
cidos. O Clearwater National Bank realiza um estudo idealizado para identificar as diferenças na utiliza- 
ção das contas correntes pelos clientes em dois de seus bancos filiais. 

Uma amostra aleatória simples de 28 contas correntes é selecionada da filial situada em Cherry Grove e 
uma amostra aleatória simples independente é selecionada de sua filial em Beechmont. O saldo atual da conta 
corrente é registrado para cada uma das contas. Apresentamos a seguir um resumo dos saldos bancários: 


Cherry Grove Beechmont 
Tamanho da amostra n=28 m=22 
Média amostral x, = US$ 1.025 X, == US$ 910 
Desvio Padrão da Amostra s, = US$ 150 s} = US$ 125 


О Clearwater National Bank quer estimar а diferenca entre o saldo médio das contas correntes manti- 
das pela população de clientes de Cherry Grove e da população de clientes de Beechmont. Vamos desen- 
volver a margem de erro e uma estimação por intervalo da diferença entre essas duas médias populacionais. 

Na Seção 10.1, apresentamos a seguinte estimação por intervalo para o caso em que os desvios padrão 
populacionais, су e o}, são conhecidos. 


2 2 

-ptz 42 
E 

1 «бҮт, a, 


Sendo o; e с> desconhecidos, usaremos os desvios padrão amostrais 5; e s, para estimar o, e 0, e subs- 
tituiremos z, por tap. Conseqüentemente, a estimação por intervalo da diferença entre duas médias popu- 
lacionais é dada pela seguinte expressão: 
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ESTIMAÇÃO POR INTERVALO DA DIFERENÇA ENTRE DUAS MÉDIAS POPULACIONAIS - 
QUANDO o, E с, SÃO DESCONHECIDOS 

1,5 

X — btt p t m (10.6) 


em que 1 ~ a é o coeficiente de confiança. 


Nessa expressão, o uso da distribuição 1 é uma aproximação, mas ela produz excelentes resultados e é 
relativamente fácil de usar. A única dificuldade que encontramos ao usar a Equação 10.6 é determinar os 
graus de liberdade apropriados рага г. Softwares estatísticos calculam automaticamente os graus de 
liberdade apropriados. A fórmula usada é a seguinte: 


1 (5 " 1 (8j (10.7) 
n lin п = 1\һ, 


Vamos retornar ao exemplo do Clearwater National Bank e mostrar como usar a Equacáo 10.6 para 
produzir uma estimação por intervalo de confiança de 95% da diferença entre a média populacional de sal- 
dos de conta corrente nos dois bancos filiais. Os dados amostrais exibem лу = 28, X = US$ 1.025 e 
sı = US$ 150 para a filial de Cherry Grove, e л, = 22, = US$ 910 e s, = US$ 125 para a filial de 
Beechmont. O cálculo dos graus de liberdade para t, é o seguinte: 

(52 | 


g-i 
п оп, 28 22 


І 
d 1 (9) a (5j 1 t a (22у 
m lin n,— 14и, 28 — 11 28 22-122 


Arredondamos para baixo os graus de liberdade não-inteiros, para 47, para obtermos um valor de / ligeira- 
mente maior e uma estimação por intervalo mais conservadora. Usando a tabela de distribuição / com 
47 graus de liberdade, encontramos 9,025 = 2,012. Usando a Equação 10.6, desenvolvemos a estimação por 
intervalo de confiança de 95% da diferença entre as duas médias populacionais da seguinte maneira: 


ОИЕ 
Ж fosse +, 


150? 1252 
1.025 — 910 + 2, + 
9 2,012 28 2 


115 + 78 


47,8 


A estimação por ponto da diferença entre a média populacional dos saldos de conta corrente nas duas 
filiais é US$ 115. A margem de erro é US$ 78 e a estimação por intervalo de confiança de 95% da dife- 
rença entre as duas médias populacionais é 115 — 78 = US$ 37 a 115 + 78 = US$ 193. 

O cálculo dos graus de liberdade (Equação 10.7) é complicado se você o fizer manualmente, mas é 
facilmente implementado com um software. Note, porém, que as expressões s7/n, e 52/н, aparecem tanto 
na Equação 10.6 como na Equação 10.7. Esses valores precisam ser calculados somente uma vez para que 
se possa avaliar tanto a Equação 10.6 como a Equação 10.7. 


Testes de Hipóteses sobre |! | — 45 


Consideremos, agora, os testes de hipóteses a respeito da diferença entre as médias de duas populações 
quando os desvios padrão populacionais с; e © são desconhecidos. Admitindo que Dg denota a diferen- 
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ça hipotética entre и, e H2, a Seção 10.1 mostrou que a estatística de teste usada para o caso em que 0, е 
0; são conhecidos é a seguinte: 


A estatística de teste, z, segue a distribuição normal padrão. 

Quando o, e o, são desconhecidos, usamos s; como um estimador de o, e s, como um estimador de 
сз. Substituindo o, e o, por esses desvios padrão amostrais, obtemos a seguinte estatística de teste quan- 
do o; е g, são desconhecidos. 


ESTATÍSTICA DE TESTE PARA TESTES DE HIPÓTESE SOBRE и – 4 QUANDO s; E s; 
SÃO DESCONHECIDOS 


t= Gi 3) Dy (10.8) 


Os graus de liberdade para г são dados pela Equação 10.7. 


Vamos demonstrar o uso dessa estatística de teste no seguinte exemplo de teste de hipóteses. 

Considere um novo pacote de software desenvolvido para auxiliar analistas de sistemas a reduzir o 
tempo necessário para projetar, desenvolver e implementar sistemas de informação. Para avaliar os bene- 
fícios do novo pacote de software, uma amostra aleatória de 24 analistas de sistemas é selecionada, A 
cada analista são dadas as especificações de um sistema de informação hipotético. Então, 12 dos analis- 
tas são instruídos a produzir o sistema de informação utilizando a tecnologia atual. Os outros 12 ana- 
listas são treinados a usar o novo pacote de software e depois são instruídos a usá-lo para produzir o sis- 
tema de informação. 

Esse estudo envolve duas populações: uma de analistas de sistemas que usam a tecnologia atual e uma 
de analistas de sistemas que usam o novo pacote de software. Em termos do tempo necessário para con- 
cluir o desenho do projeto de sistema de informação, as médias populacionais são as seguintes: 


йу = о tempo médio de conclusão do projeto para os analistas que usam a tecnolo- 
gia atual. 

ил = o tempo médio de conclusão do projeto para os analistas que usam o novo 
pacote de software. 


O pesquisador encarregado do projeto de avaliação do novo software espera demonstrar que o novo 
pacote de software apresentará uma média de tempo mais breve para a conclusão do projeto. Desse modo, 
o pesquisador está à procura de evidências que o levem a concluir que zz; é menor que р]; nesse caso, а 
diferença entre as duas médias populacionais, 44 — 445, será maior que zero. A hipótese de pesquisa и; — и, 
> 0 é declarada como a hipótese alternativa. Assim, o teste de hipóteses torna-se: 


Hy uu – о = 0 
Нар > 0 


Usaremos a = 0,05 сото o nível de significância. 
Suponha que os 24 analistas concluam o estudo com os resultados mostrados na Tabela 10.1. Usando 
a estatística de teste na Equação 10.8, obtemos: 


Gi -X)-D, (325-286)-0 


n КЕ 40? 40 
n п, 12 12 


2,27 
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Calculando os graus de liberdade com a Equação 10.7, obtemos, 


E i ү Е И £y 
топ, 12 12 


1 "E 1 (5) 1 (8) + 1 E 
nj — ln n; ln, 12-1312 12-1412 


Arredondando, usaremos uma distribuição t com 21 graus de liberdade. Essa linha da tabela de distri- 
buição f é a seguinte: 


gl 21,8 


Área da Cauda Superior | 0,20 0,10 0,05 0,025 0,01 0,005 
Valor t (21 graus de liberdade) 10,859 1,323 1,721 2,080 ч. 2518 2,831 
t=2,27 


Com um teste da cauda superior, o valor p é a área na cauda superior à direita de t = 2,27. Dos resultados 
anteriores, notamos que o valor p está entre 0,025 е 0,01. Desse modo, o valor р é menor que а = 0,05, e Ho 
é rejeitada. Os resultados amostrais possibilitam ao pesquisador concluir que 4; — и > 0, и, > и„. Dessa 
forma, o estudo de pesquisa sustenta a conclusão de que o novo pacote de software oferece uma média 
populacional menor de tempo de conclusão. 


Tabela 10.1 Dados sobre o tempo de conclusão e sumário estatístico do estudo dos testes do software 


Tecnologia Atual Novo Software 

300 274 

280 220 

344 308 

385 336 

372 198 

360 300 

288 315 

321 258 

376 318 

290 310 

301 332 

283 263 
Sumário Estatístico 
Tamanho da amostra n = 12 п = 12 
Média Amostral X, = 325 horas хә = 286 horas 
Desvio padráo da amostra s| = 40 5) = 44 


О Minitab pode ser usado para analisar dados de teste de hipóteses sobre а diferença entre duas médias 
populacionais. A saída de dados (outpur) que compara a atual e a nova tecnologia de software é mostrada 
na Figura 10.2. A última linha da saída de dados apresenta г = 2,27 e o valor p = 0,017. Observe que o 
Minitab usou a Equação 10.7 para calcular 21 graus de liberdade para essa análise. 


Conselho Prático 


Os procedimentos de estimação por intervalo e de teste de hipóteses apresentados nesta seção são robus- 
tos e podem ser usados com tamanhos de amostra relativamente pequenos. Na maioria das aplicações, 
tamanhos de amostra iguais ou aproximadamente iguais, de forma que o tamanho de amostra total 
n, + n; Seja, no mínimo, igual a 20, pode-se esperar que eles ofereçam resultados muito bons mesmo que 
as populações não sejam normais. Tamanhos de amostra maiores são recomendados se as distribuições das 
populações forem altamente assimétricas ou se tiverem pontos fora da curva. Tamanhos de amostra meno- 
res somente devem ser usados se o analista estiver convencido de que as distribuições das populações 
sejam, no mínimo, aproximadamente normais. 
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Figura 10.2 Saída de dados do Minitab para o teste de hipóteses das tecnologias de software atual e nova 


—- —C ia ((————————————————— P 
Two-sample T for Current vs New ` ; à i 
a ` E " 
E N ; Mean ^ StDev SE Mean - * 5 * 
Current 12 325.0: 40.0 ` 12 " E , 
New 12 286.0 44.0 a 13 " OC + 
E LJ B К e И 
«Difference = mu Current - mu'New „ . " LI EN * à 
Estimate for difference: 39.0000 s ы "E м 
95% lower bound for difference = 9.4643  , ^ * e "no 
T-Test of difference - 0 (vs >): T-Value = 2.27 P-Value = 0.017 DF = 21 | 


i " € — na re a catia, ar À 


NOTAS E COMENTÁRIOS 


Outro critério usado para se fazer inferências sobre a diferença entre duas médias populacionais quan- 
do o, e 0, são desconhecidos baseia-se na hipótese de que os dois desvios padrão populacionais são 
iguais (оу = 0; = о). Dessa hipótese, os dois desvios padrão amostrais são combinados para produ- 
zir a seguinte variância amostral agrupada: 


уэ MODA @„ DS 
Р т+п,—2 


A estatística de teste t torna-se: 


e tem л, + m — 2 graus de liberdade, Nesse ponto, o cálculo do valor p e a interpretação dos dados 
amostrais são idênticos aos procedimentos discutidos anteriormente nesta seção. 

Uma dificuldade apresentada por esse procedimento é que a hipótese de que os dois desvios padrão são 
iguais geralmente é difícil de verificar. Desvios padrão populacionais não-iguais frequentemente são 
encontrados. O uso do procedimento agrupado pode não fornecer resultados satisfatórios, especialmen- 
te se os tamanhos de amostra л, e n, forem muito diferentes. 

O procedimento ѓ que apresentamos nesta seção não requer a suposição de desvios padrão populacio- 
nais iguais e pode ser aplicado quer os desvios padrão populacionais sejam iguais ou não. É o proce- 
dimento mais geral e é recomendado para a maioria das aplicações. 


Exercícios 


Métodos 


9. Considere os seguintes resultados, correspondentes a amostras aleatórias independentes tomadas de 
duas populações. 


Amostra 1 Amostra 2 
т = 20 п = 30 
ў = 22,5 »= 20,1 
s = 2,5 5 = 48 


a. Qual é a estimação por ponto da diferença entre as duas médias populacionais? 

b. Qual é o grau de liberdade para a distribuição г? 

c, Com 95% de confiança, qual é a margem de erro? 

d. Qual é o intervalo de confiança para a diferença entre as duas médias populacionais? 


Capítulo 10 Comparações Envolvendo Médias 


10. Considere o seguinte teste de hipóteses. 


Hyg - і = 0 
Неши + 0 
Os resultados apresentados а seguir são de amostras independentes tomadas de duas populações: 
Amostra 1 Amostra 2 
n=35 m = 40 
й = 13,6 »= 10,1 
5 = 5,2 5 = 8,5 


а. Qual ё o valor da estatística de teste? 

b. Qual é o grau de liberdade da distribuição 1? 
с. Qual é o valor t 

d. Com a = 0,05, qual é a sua conclusão? 


11, Considere os dados seguintes, correspondentes a amostras aleatórias independentes tomadas de duas 
populações normais: 
Amostra 1 10 7 13 7 9 8 
Amostra 2 8 7 8 4 6 9 
a. Calcule a média das duas amostras. 
b. Calcule os dois desvios padrão amostrais. 
c. Qual é a estimação por ponto da diferença entre as duas médias populacionais? 
d. Qual é a estimação por intervalo de confiança de 95% da diferença entre as duas médias popula- 
cionais? ' 
Aplicações 
12. OU.S. Department of Transportation divulga o número de milhas que os habitantes das 75 maiores 
regiões metropolitanas viajam de carro por dia. Suponha que, para uma amostra aleatória simples de 
50 habitantes de Buffalo, a média seja de 22,5 milhas por dia e que o desvio padrão seja de 8,4 milhas 
por dia e que, para uma amostra aleatória simples independente de 40 habitantes de Boston, a média 
seja de 18,6 milhas por dia e que o desvio padrão seja de 7,4 milhas por dia. 
a. Qual é a estimação por ponto da diferença entre o número médio de milhas que os habitantes de 
Buffalo viajam por dia e o número médio de milhas que os habitantes de Boston viajam por dia? 
b. Qual é o intervalo de confiança de 95% da diferença entre as duas médias populacionais? 
13. A FedEx e a United Parcel Service (UPS) são dois dos principais serviços de entrega de encomendas 


em termos de volume e receita (The Wall Street Journal, 27 de janeiro de 2004). De acordo com o 
Airports Council International, o Memphis International Airport (FedEx) e o Louisville International 
Airport (UPS) são dois dos maiores aeroportos de carga do mundo. As seguintes amostras aleatórias 
apresentam as toneladas de carga por dia manipuladas por esses dois aeroportos. Os dados estão 
expressos em milhares de toneladas. 


Memphis 
9,1 15,1 88 10,0 75 10,5 
83 9,1 6,0 5,8 12,1 93 
Louisville 
47 5,0 42 3,3 5,5 
2,2 4,1 2,6 34 7,0 


a. Calcule a média amostral е о desvio padrão amostral correspondentes a cada aeroporto. 

b. Qual é a estimação por ponto da diferença entre as duas médias populacionais? Interprete esse 
valor em termos do aeroporto que manipula o maior volume e de uma comparação da diferença de 
volume entre esses dois aeroportos. 

c. Desenvolva um intervalo de confiança de 95% entre as médias populacionais diárias corresponden- 
tes aos dois aeroportos. 
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14. 


I5. 


As áreas costeiras dos Estados Unidos, incluindo Cape Cod, as Outer Banks,! a Carolina do Norte e a 
Carolina do Sul e a Região Costeira do Golfo do México (Gulf Coast)? tiveram índices de crescimen- 
to populacional relativamente elevados durante a década de 1990. Foram coletados dados sobre os 
habitantes que vivem nas comunidades costeiras, bem como sobre os habitantes que vivem em áreas 
não-litorâneas de todas as regiões dos Estados Unidos (USA Today, 21 de julho de 2000). Suponha que 
os seguintes dados amostrais tenham sido obtidos sobre a idade das pessoas nas duas populações. 


Áreas Costeiras Áreas Não-Costeiras 
n; = 150 пу = 175 

X = 39,3 anos X, = 35,4 anos 

sy = 16,8 anos 5 = 15,2 anos 


Teste a hipótese de não haver nenhuma diferença entre as duas médias populacionais. Use а = 0,05. 
a. Formule as hipóteses nula e alternativa. 

b. Qual é o valor da estatística de teste? 

c. Qual é o valor p? 

d. Qual é a sua conclusão? 

Nos últimos anos, aumentaram as lesões nos jogadores da Major League Baseball. Em relação ao 
período de 1992 a 2001, a ampliação da liga fez que as inscrições à Major League Baseball aumen- 
tassem 15%. Entretanto, o número de jogadores que são colocados na lista de inativos em virtude das 
lesões aumentou 32% no mesmo período (USA Today, 8 de julho de 2002). Uma pergunta de pesqui- 
sa queria saber se os jogadores da Major League Baseball colocados na lista de inativos permaneciam 
nela durante um tempo mais longo em 2001 que os jogadores que eram colocados na lista de inativos 
há uma década. 


a. Usando a média populacional do número de dias que um jogador permanece na lista de inativos, for- 
mule as hipóteses nula e alternativa que possam ser utilizadas para testar a pergunta da pesquisa. 
b. Suponha que os seguintes dados sejam aplicáveis: 


Temporada de 2001 Temporada de 1992 


Jogadores da Amostra п = 45 п = 38 
Média de Dias da Amostra X, = 60 dias X = 51 dias 
Desvio Padrão da Amostra sy = 18 dias 5, = 15 dias 


Qual é a estimação por ponto da diferença entre a média de dias da população que permanece na lista 

de inativos em 2001 em comparação com 1992? Qual é o aumento percentual no número de dias de 

permanência na lista de inativos? 

c. Use а = 0,01. Qual é a sua conclusão a respeito do número de dias de permanência na lista de ina- 
tivos? Qual é o valor p? 

d. Esses dados sugerem que a Major League Baseball deve preocupar-se com a situação? 


O College Board divulgou comparações sobre as pontuações no Scholastic Aptitude Test (SAT)? 
baseando-se no nível educacional mais elevado obtido pelos pais da pessoa que faz os exames. Uma 
das hipóteses de pesquisa era que os estudantes cujos pais haviam obtido um nível mais elevado de 
educação obteriam uma pontuação média mais elevada no SAT. Durante 2003, a média global dos 
exames orais do SAT foi 507 (The World Almanac 2004). As pontuações nos exames orais do SAT 
para amostras independentes de estudantes são apresentadas a seguir. A primeira amostra exibe pon- 
tuações nos exames orais do SAT correspondentes a estudantes cujos pais têm diplomas universitá- 
rios com graus de bacharel. A segunda amostra exibe as pontuações nos exames orais do SAT de estu- 
dantes cujos pais têm diplomas do segundo grau, mas não têm diplomas universitários. 


1 NT: Outer Banks — Cadeia de ilhas arenosas longas e estreitas ao longo da costa da Carolina do Norte (Estados Unidos). 

2NT: Gulf Coast — Estados do Golfo do México: Flórida, Alabama, Mississipi, Louisiana e Texas (Estados Unidos). 

3 NT: SAT, ou Scholastic Aptitude Test — É um exame usado pelas universidades como parte do processo de seleção de estudantes 
para admissão ao curso superior. Há sete seções: três de matemática, três orais e uma prática (experimental), que não recebe notas e 
é usada somente para pesquisa. 
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Pais do Estudante 


Com Diploma Universitário Com Diploma do Segundo Grau 

485 487 42 492 
534 533 580 478 
650 526 479 425 
554 410 486 485 
550 515 528 390 
572 578 524 535 
497 448 

592 469 


17. 


18. 


a. Formule as hipóteses que podem ser usadas para determinar se os dados amostrais sustentam a 
hipótese de que os estudantes exibem uma pontuação média mais elevada nos exames orais do SAT 
se seus pais tiverem obtido um nível de educação mais elevado. 

b. Qual é a estimação por ponto da diferença entre as médias das duas populações? 

c. Calcule o valor p para o teste de hipóteses. 

d. Com а = 0,05, qual é a sua conclusão? 


Periodicamente, os clientes da Merrill Lynch são solicitados a avaliar os consultores e os serviços 
financeiros dessa empresa (2000 Merrill Lynch Client Satisfaction Survey). Avaliações mais elevadas 
sobre a satisfação do cliente indicam um atendimento melhor, sendo 7 a classificação máxima para 
os serviços. Amostras independentes de avaliações do serviço prestado por dois consultores financei- 
ros estão resumidas aqui. O consultor A tem dez anos de experiência, ao passo que o consultor B tem 
um ano de experiência. Use a = 0,05 e teste para verificar se o consultor que tem mais experiência 
possuí uma média de avaliação de atendimento populacional mais elevada. 


Consultor A Consultor B 
ni = 16 п = 10 

Ху = 6,82 ў = 625 
sı = 0,64 s, = 0,75 


a. Estabeleça as hipóteses nula e alternativa. 
b. Calcule o valor da estatística de teste. 

с. Qual é o valor p? 

d. Qual é a sua conclusáo? 


As empresas de cursinhos universitários oferecem estudos dirigidos, aprendizagem em sala de aula e 
testes práticos, em um esforço para ajudar os estudantes a obterem melhor desempenho nos exames 
como o Scholastic Aptitude Test (SAT). As empresas de cursinhos universitários afirmam que seus 
cursos melhorarão o desempenho no SAT em uma média de 120 pontos (The Wall Street Journal, 23 
de janeiro de 2003). Um pesquisador não tem tanta certeza a respeito dessa afirmação e acredita que 
120 pontos podem ser uma afirmação exagerada no esforço para encorajar os estudantes a fazerem o 
cursinho. Em um estudo de avaliação do serviço prestado pelos cursinhos, o pesquisador coleta dados 
de pontuação no SAT de 35 estudantes que fizeram o cursinho e de 48 que não o fizeram. 


a. Formule as hipóteses que podem ser usadas para testar a crença do pesquisador de que as pontua- 
ções obtidas no SAT podem ser menores que a média declarada de 120 pontos. 
b. Use а = 0,05 e os dados apresentados a seguir. Qual é a sua conclusão? 


Participantes do Cursinho Não-Participantes do Cursinho 
Média Amostral 1.058 983 
Desvio Padrão da Amostra 90 105 


c. Qual é a estimação por ponto da melhoria da média de pontuações no SAT proporcionada pelo cur- 
sinho universitário? Apresente uma estimação por intervalo de confiança de 95% da melhoria, 
d. Qual conselho você daria ao pesquisador depois de ver o intervalo de confiança? 
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10.3 INFERÊNCIAS SOBRE A DIFERENÇA ENTRE AS MÉDIAS 
DE DUAS POPULAÇÕES: AMOSTRAS RELACIONADAS 
(OU DEPENDENTES) 


Suponha que os empregados de uma empresa de manufatura possam usar dois diferentes métodos para exe- 
cutar uma tarefa de produção. Para maximizar o resultado da produção, a empresa quer identificar o méto- 
do que apresenta a menor média populacional de tempo de conclusão. Digamos que ру denote a média 
populacional do tempo de conclusão correspondente ao método de produção 1 e que z, denote a mé- 
dia populacional do tempo de conclusão correspondente ao método de produção 2. Sem nenhuma indica- 
ção preliminar do método de produção preferido, iniciamos com a hipótese experimental de que os 
dois métodos têm a mesma média populacional de tempo de conclusão. Desse modo, a hipótese nula é 
Ho: Hı — to = 0. Se essa hipótese for rejeitada, podemos concluir que os tempos médios populacionais para 
a conclusão diferem. Nesse caso, o método que fornece o menor tempo médio de conclusão seria recomen- 
dado. As hipóteses nula e alternativa são escritas da seguinte maneira: 


Нощ - о = 0 
Hyg -u*0 


Ao escolher o procedimento de amostragem que usaremos para coletar os dados referentes ao tempo 
de produção e testar as hipóteses, consideramos duas alternativas de projeto. Uma se baseia em amostras 
independentes e a outra, em amostras relacionadas. 


1. Projeto de amostra independente: Uma amostra aleatória simples de funcionários é selecionada e 
cada funcionário da amostra usa o método 1, Uma segunda amostra aleatória simples independen- 
te de funcionário é selecionada e cada funcionário dessa amostra usa o método 2. O teste da dife- 
rença entre as médias baseia-se nos procedimentos da Seção 10.2. 


2. Projeto de amostras relacionadas (ou combinadas): Uma amostra aleatória simples de funcioná- 
rios é selecionada. Cada funcionário usa primeiramente um método e depois o outro. A ordem dos 
dois métodos é atribuída aleatoriamente aos funcionários, sendo que alguns executam primeiro o 
método 1 e os outros, o método 2. Cada funcionário produz um par de valores de dados, e um valor 
corresponde ao método 1 e outro, ao método 2. 


No projeto de amostras relacionadas, os dois métodos de produção são testados sob condições idênti- 
cas (ou seja, com os mesmos funcionários); portanto, esse projeto acarreta um erro de amostragem menor 
que o projeto de amostras independentes. A razão básica para que isso ocorra é que em um projeto de 
amostras relacionadas as variações entre os trabalhadores são eliminadas porque são usadas as mesmas 
pessoas para ambos os métodos de produção. 

Vamos demonstrar a análise de um projeto de amostras relacionadas presumindo que seja este o méto- 
do utilizado para testar a diferença entre as médias populacionais dos dois métodos de produção. Uma 
amostra aleatória de seis funcionários é usada. Os dados sobre os tempos de conclusão da tarefa corres- 
pondentes aos seis funcionários são apresentados na Tabela 10.2. Note que cada funcionário fornece um 
par de valores de dados, sendo um para cada método de produção. Note também que a última coluna con- 
tém a diferença entre os tempos de conclusão d, correspondente a cada funcionário da amostra. 

O elemento decisivo para a análise do projeto de amostras relacionadas é perceber que consideramos 
somente a coluna de diferenças. Portanto, temos seis valores de dados (0,6; -0,2; 0,5; 0,3; 0,0 e 0,6) que 
serão usados para analisar a diferença entre as médias populacionais dos dois métodos de produção. 


Tabela 10.2 Tempos de conclusão da tarefa correspondentes a um projeto de amostras relacionadas 


Tempo de Conclusão Tempo de Conclusão Diferença dos 
para o Método para o Método 2 Tempos de 

Funcionário (em minutos) (em minutos) Conclusão (d;) 
| 60 5,4 06 
2 50 52 22 
3 70 6,5 0,5 
4 62 59 0,3 
5 6,0 60 0,0 
6 6,4 5,8 0,6 
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Admitamos que u4 = a média dos valores de diferença para a população de funcionários. Com essa 
notação, as hipóteses nula e alternativa são reescritas da seguinte maneira: 


Hg на = 0 
Ніна 0 


Se Ho for rejeitada, podemos concluir que a média populacional dos tempos de conclusão difere. 
A notação d é um lembrete de que a amostra relacionada fornece dados de diferença. A média amos- 
tral e o desvio padrão amostral dos seis valores de diferença da Tabela 10.2 são os seguintes: 


, Xd 1 
а= 22-18 = озо 


n 6 E 
_ Га аў [ose 
s= y = Vos = 0335 


Com uma média amostral pequena de n = 6 trabalhadores, precisamos levantar a hipótese de que a 
população de diferenças tem uma distribuição normal. Essa hipótese é necessária a fim de podermos usar 
a distribuição t para os procedimentos de teste de hipóteses e de estimação por intervalo. Com base nessa 
hipótese, a seguinte estatística de teste tem uma distribuição t com n — 1 graus de liberdade: 


DATI 


t (10.9) 


Vamos usar a Equação 10.9 para testar as hipóteses Ho: m, = 0e Н: Ma É 0, usando a — 0,05. Substituindo 
os resultados amostrais d = 0,30, s4 = 0,335 e п = 6 na Equação 10.9, calculamos o valor da estatística 
de teste. 


d-u, 030-0 
= = = — 2,2! 
s,/Vn — 0,335/V6 


Vamos calcular o valor p para esse teste bicaudal. Uma vez que t = 2,20 > 0, a estatística de teste está 
na cauda superior da distribuição t. Com г = 2,20, a área na cauda superior à direita da estatística de teste 
pode ser encontrada usando-se a tabela de distribuição t com graus de liberdade = n- 1 = 6-1 = 5. 

A informação contida na linha de 5 graus de liberdade da tabela de distribuição 1 é a seguinte: 


Área da Cauda Superior | 020 0,10 0,05 0,025 0,01 0,005 
Valor t (5 graus de liberdade) | 0,920 1,476 2015 ч. 2,571 3,365 4,032 
t=2,20 


Desse modo, notamos que a área na cauda superior está entre 0,05 e 0,025. Uma vez que este teste é 
um teste bicaudal, duplicamos esses valores e concluímos que o valor p está entre 0,10 e 0,05. Esse valor 
p é maior que а = 0,05. Assim, a hipótese nula Ho: #4 = O não é rejeitada. Usando o Minitab е os dados 
da Tabela 10.2, encontramos o valor p = 0,080. 

Além disso, podemos obter uma estimação por intervalo da diferença entre as duas médias populacio- 
nais usando a metodologia das populações simples apresentada no Capítulo 8. Com 95% de confiança, o 
cálculo é o seguinte: 


0,3 + 0,35 
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Portanto, a margem de erro é 0,35, e o intervalo de confiança de 95% para a diferença entre as médias 


populacionais dos dois métodos de produção é de — 0,05 minutos a 0,65 minutos. 


NOTAS E COMENTÁRIOS 


1. No exemplo apresentado nesta seção, funcionários executavam a tarefa de produção utilizando primei- 
ramente um dos métodos e depois o outro. Esse exemplo ilustra um projeto de amostras relacionadas 
no qual cada elemento amostrado (funcionário) produz um par de valores de dados. Também é possí- 
vel usar elementos diferentes, porém, “similares”, para produzir um par de valores de dados. Por exem- 
plo, poderia haver uma correspondência de um trabalhador situado em um lugar com um trabalhador 
similar situado em outro lugar (sendo a correspondência baseada em idade, educação, sexo, experiên- 
cia profissional etc.). Os pares de trabalhadores produziriam os dados da diferença que poderiam ser 
usados na análise de amostras relacionadas. 

2. Um procedimento de amostras relacionadas (ou pendentes) para inferências sobre duas médias popu- 
lacionais geralmente produz melhor precisão que o critério de amostras independentes; portanto, ele é 
o projeto recomendado. Entretanto, em algumas aplicações, a correspondência não pode ser obtida ou, 
talvez, o tempo e o custo associados com a correspondência sejam excessivos. Nesses casos, o projeto 
de amostras independentes deve ser usado. 

Exercícios 
Métodos 
19. Considere o seguinte teste de hipóteses: 
Hg ug 50 
Hy Ha> 0 
Os dados a seguir são de amostras relacionadas tomadas de duas populações. 
População 
Elemento l 2 
i 21 20 
2 28 26 
3 18 18 
4 20 20 
5 26 24 
a. Calcule o valor da diferença correspondente a cada elemento. 
b. Calcule d. 
с. Calcule o desvio padrão sg. 
d. Realize um teste de hipóteses usando а = 0,05. Qual é a sua conclusão? 
20. Os dados a seguir são de amostras relacionadas que foram tomadas de duas populações. 


População 
Elemento l 2 
1 li 8 
2 7 8 
3 9 6 
4 12 7 
5 13 10 
6 15 15 
7 15 14 


a. Calcule o valor da diferença correspondente а cada elemento. 

b. Calcule d. 

c. Calcule o desvio padrão s, 

d. Qual é a estimação por ponto da diferença entre as duas médias populacionais? 

e. Forneça um intervalo de confiança de 95% da diferença entre as duas médias populacionais. 
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Aplicações 


21. 


Uma firma de pesquisa de mercado usou uma amostra de indivíduos para avaliar o potencial de com- 
pra de determinado produto antes e depois de as pessoas virem um novo comercial de televisão a res- 
peito do produto. As avaliações do potencial de compra basearam-se em uma escala de O a 10, e os 
valores mais altos indicavam maior potencial de compra. A hipótese nula declarava que a avaliação 
média “depois” seria menor ou igual à avaliação média “antes”. A rejeição dessa hipótese demons- 
traria que o comercial melhorou a avaliação do potencial médio de compra. Use а = 0,05 e os dados 
apresentados a seguir para testar a hipótese e comentar o valor do comercial. 


Avaliação de Compra Avaliação de Compra 
Indivíduo Depois Antes Indivíduo Depois Antes 
| 6 5 5 3 5 
2 6 ` 4 6 9 8 
3 7 7 7 7 5 
4 4 3 8 6 6 


22. 


Uma amostra de dez chamadas telefônicas internacionais forneceu o preço das tarifas por minuto da 
Sprint e da WorldCom para chamadas feitas dos Estados Unidos (World Traveler, julho de 2000). 


País Sprint WorldCom 
Austrália 0,46 0,26 
Bélgica 0,69 0,40 
Brasil 0,92 0,53 
Colômbia 0,55 0,53 
Dinamarca 0,50 0,26 
França 0,46 0,26 
Alemanha 0,46 0,26 
Hong Kong 0,92 0,40 
Japão 0,69 0,40 
Reino Unido 0,46 0,26 


23. 


24. 


Forneça uma estimação por intervalo de confiança de 95% da diferença entre as duas médias popu- 
lacionais. 

A Consumer Spending Survey (Pesquisa de Gastos de Consumo) do Bank of America coletou dados 
sobre os gastos anuais com cartão de crédito em sete diferentes categorias: transporte, produtos de 
mercearia, restaurantes, despesas domésticas, mobiliário doméstico, vestuário e entretenimento (U.S. 
Airways Attaché, dezembro de 2003). Usando dados de uma amostra de 42 contas de cartão de cré- 
dito, suponha que cada conta tenha sido usada para identificar os gastos anuais com cartão de crédi- 
to em produtos de mercearia (população 1) e os gastos anuais com cartão de crédito em restaurantes 
(população 2). Usando os dados de diferença, a diferença média amostral foi de d = US$ 850, e o 
desvio padrão amostral, de s, = US$ 1.123. 


a. Formule as hipóteses nula e alternativa para testar se пйо Һа diferenga entre a média populacional 


de gastos com cartão de crédito em produtos de mercearia e a média populacional de gastos com ` 


cartáo de crédito em restaurantes. 


b. Use o nível de significáncia de 0,05. Vocé pode concluir que as médias populacionais diferem? 
Qual é o valor p? 

c. Qual categoria, a de produtos de mercearia ou a de restaurantes, tem шпа média populacional mais 
elevada no que diz respeito aos gastos anuais com cartão de crédito? Qual é a estimação por ponto 
do intervalo de confiança de 95% da diferença entre as médias populacionais? 

Os preços por galão (3,78 litros) de gasolina para carros de aluguel foram amostrados em oito gran- 


des aeroportos. Os dados relativos às empresas de carros de aluguel Hertz e National são apresenta- 
dos a seguir (USA Today, 4 de abril de 2000). 


Aeroporto Hertz National 
Boston Logan 1,55 1,56 
Chicago O'Hare 1,62 1,59 
Los Angeles 1,72 1,78 


Miami 1,65 1,49 
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Aeroporto Hertz National 
"Nova York (JFK) 1,72 1.51 
Nova York (LaGuardia) 1,67 1,50 
Orange County, CA 1,68 1,77 
Washington (Dulles) ' 1.52 1,41 


Use a = 0,05 para testar a hipótese de que não há nenhuma diferença entre os preços médios popu- 
lacionais por galão em relação às duas empresas. 

25. Nos últimos anos, uma sucessão crescente de opções de entretenimento compete pela atenção dos 
clientes. Em 2004, televisão a cabo e o rádio suplantaram a televisão convencional, as gravações 
musicais e os noticiários diários e se transformaram nas duas mídias de entretenimento mais utiliza- 
das (The Wall Street Journal, 26 de janeiro de 2004). Pesquisadores usaram uma amostra de 15 indi- 


víduos e coletaram dados sobre as horas por semana que eles passam a assistir à TV a cabo e as horas 
por semana que ouvem rádio. 


Indivíduo Televisão Rádio Indivíduo Televisão Rádio 
I 22 25 9 21 21 
À 2 8 10 10 23 23 
3 25 29 H L 15 
ARQUIVO 4 22 19 i2 14 18 
5 12 13 13 14 17 
D^ INTERNET 6 26 28 - 14 16 15 
TVRadio 7 2 23 15 24 23 
8 19 21 


a. Use o nível de significância 0,05 e teste se há alguma diferença entre a média populacional de uso 
da TV a cabo e do rádio. Qual é o valor p? 

b. Qual é o número médio amostral de horas por semana que eles assistem à TV a cabo? Qual é o 
número médio amostral de horas por semana que eles ouvem rádio? Qual meio de comunicação 
tem o maior uso? 

26. A StreetInsider.com divulgou dados referentes aos rendimentos por ação das maiores empresas em 
2002 (12 de fevereiro de 2003). Antes de 2002, analistas financeiros fizeram previsões dos rendimen- 
tos por ação em 2002 para essas mesmas empresas (Barron's, 10 de setembro de 2001). Use os dados 
a seguir para comentar as diferenças entre os rendimentos por ação reais e os rendimentos por ação 


previstos. 
Empresa , Reais Previstos 
AT&T 1.29 0,38 
сер American Express 2,01 2,31 
ARQUIVO Citigroup 2,59 3,43 
Coca-Cola 1,60 1,78 
DA INTERNET DuPont 184 2,18 
Earnings Exxon-Mobit 272 2,19 
. General Electric 1.51 1,71 
Johnson & Johnson 2,28 2,18 
McDonald's 0,77 1,55 
Wal-Mart 1,81 1,74 


a. Use а = 0,05 e teste se há alguma diferença entre a média populacional real e a média populacio- 
nal prevista dos rendimentos por ação. Qual é o valor p? Qual é a sua conclusão? 

b. Qual é a estimação por ponto da diferença entre as duas médias? Os analistas tenderam a subesti- 
mar ou a superestimar os rendimentos? 

c. Com 95% de confiança, qual é a margem de erro para a estimativa do item (b)? O que você reco- 
mendaria com base nessa informação? ` 


10.4 INTRODUÇÃO À ANÁLISE DE VARIÂNCIA 


Até agora, enfatizamos os procedimentos estatísticos utilizados para comparar duas médias populacionais. 
Nesta seção, apresentamos a análise de variância (ANOVA) e mostramos como ela pode ser usada para 
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testar as hipóteses de que três ou mais populações são iguais. Iniciamos a discussão considerando um pro- 
blema enfrentado pela National Computer Products, Inc. 

A National Computer Products, Inc. (NCP) produz impressoras e máquinas de fax em suas fábricas 
localizadas em Atlanta, Dallas e Seattle. Para medir quanto os empregados dessas fábricas sabem sobre 
gerenciamento da qualidade total, uma amostra aleatória de seis empregados de cada fábrica foi selecio- 
nada e seus integrantes foram submetidos a um exame de seus conhecimentos sobre a qualidade. As notas 
de exame obtidas por esses 18 empregados se encontram na Tabela 10.3. As médias amostrais, as variân- 
cias amostrais e os desvios padrão amostrais de cada grupo também são apresentados. Os gerentes querem 
usar esses dados para testar a hipótese de que a média das notas de exame é a mesma para todas as três 
fábricas. 

Definiremos a população 1 como todos os empregados da fábrica em Atlanta, a população 2 como 
todos os empregados da fábrica em Dallas e a população 3 como todos os empregados da fábrica em 
Seattle. Admitamos que: 


H4 = média das notas de exame da população 1 
и» = média das notas de exame da população 2 
из = média das notas de exame da população 3 


Embora jamais saibamos os valores reais de 4j, м e из, queremos usar os resultados amostrais para 
testar as seguintes hipóteses. 


Hy ш = Ho = из 
Ну: Nem todas as médias populacionais são iguais 


Conforme demonstraremos em breve, a análise de variância é um procedimento estatístico que pode 
ser usado para determinar se as diferenças observadas nas três médias amostrais são suficientemente gran- 
des рага rejeitarmos Но. 

Na introdução deste capítulo, afirmamos que a análise de variância pode ser usada para analisar dados 
obtidos tanto de um estudo observacional como de um estudo experimental. Para contarmos com uma 
nomenclatura comum para discutir o uso da análise de variância em ambos os tipos de estudo, precisamos 
introduzir os conceitos de variável de resposta, fator e tratamento. 

As duas variáveis do exemplo da NCP são: a localização das fábricas e as notas obtidas no exame de 
conhecimento sobre qualidade. Uma vez que o objetivo é determinar se a média das notas de exame é a 
mesma para as fábricas localizadas em Atlanta, Dallas e Seattle, as notas de exame são chamadas variável 
dependente ou variável de resposta e o local da fábrica como a variável independente ou fator. Em geral, 
os valores de um fator selecionado para serem submetidos a uma investigação denominam-se níveis do 
fator ou tratamentos. Desse modo, no exemplo da NCP, os três tratamentos são Atlanta, Dallas e Seattle. 


Esses três tratamentos definem as populações de interesse no exemplo da NCP. Para cada tratamento, ou 
população, a variável de resposta é a nota obtida no exame. 
Tabela 10.3 Notas de exame dos 18 empregados 
Fábrica | Fábrica 2 Fábrica 3 
Observação Atlanta Dallas Seattle 
| 85 ' 7i 59 
2 75 75 64 
3 82 73 62 
4 76 74 69 
5 71 69 75 
6 85 82 67 
Média amostral 79 74 66 
Variacáo Amostrat 34 20 32 


Desvio padráo amostral 5,83 4,47 5,66 
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Se Hg for 
rejeitada, não 
poderemos 
concluir que todas 
as médias 
populacionais 
sejam diferentes. 
Rejeitar Но 
significa que pelo 
menos duas 
médias 
populacionais têm 
valores diferentes. 


Se os tamanhos de 
amostra forem 
iguais, a análise de 
variância não terá 
sensibilidade 
suficiente para 
detectar 
afastamentos da 
hipótese de que as 
populações estão 
normalmente 
distribuídas. 


ARQUIVO 
DA INTERNET 
NCP 
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Hipóteses sobre a Análise de Variância 


Três hipóteses são necessárias para a análise de variância. 


1. Para cada população, a variável de resposta está normalmente distribuída. Implicação: No exem- 
plo da NCP, as notas obtidas no exame (variável de resposta) devem estar normalmente distribuídas em 
cada fábrica. 


2. A variância da variável de resposta, denotada por o?, é idêntica para todas as populações. 
Implicação: No exemplo da NCP, a variância das notas obtidas no exame deve ser idêntica para todas 
as três fábricas. 


3. As observações devem ser independentes. Implicação: No exemplo da NCP, a nota que cada empre- 
gado obteve no exame deve ser independente daquela-obtida por qualquer outro empregado. 


Visão Conceitual 


Se as médias correspondentes às três populações fossem iguais, esperaríamos que as três médias amostrais 
estivessem bem próximas entre si. Realmente, quanto mais próximas as três médias amostrais estiverem 
entre si, mais evidências teremos para a conclusão de que as médias populacionais são iguais. 
Alternativamente, quanto mais diferirem as médias amostrais, mais evidências feremos para a conclusão 
de que as médias populacionais não são iguais. Em outras palavras, se a variabilidade entre as médias 
amostrais for “pequena”, ela exibirá evidências favoráveis a Н; se a variabilidade entre as médias amos- 
trais for “grande”, ela exibirá evidências favoráveis a H,. 

Se a hipótese nula, Ho: 44 = 4t; = из, for verdadeira, poderemos usar a variabilidade entre as médias 
amostrais para desenvolver uma estimativa de 02. Primeiramente, observe que se as hipóteses referentes à 
análise de variância forem satisfeitas, cada amostra será proveniente da mesma distribuição normal com 
média и e variância g2. Lembre-se do Capítulo 7 que a distribuição amostral da média X da amostra cor- 
respondente a uma amostra aleatória simples de tamanho n extraída de uma população normal, estará nor- 
malmente distribuída e possui uma média и com uma variância o?/n. A Figura 10.3 ilustra esse tipo de dis- 
tribuição amostral, 

Desse modo, se a hipótese nula for verdadeira, podemos imaginar cada uma das três médias amostrais 
Xj = 79, x, = 74 X = 66, apresentadas na Tabela 10.3, como valores extraídos aleatoriamente da distri- 
buição amostral exibida na Figura 10.3. Nesse caso, a média e a variância dos três valores X podem ser 
usadas para estimar a média e a variância da distribuição amostral. Quando os tamanhos de amostra são 
iguais, como no exemplo da NCP, a melhor estimativa da média da distribuição amostral de x; é a média, 
ou valor médio, das médias amostrais. Assim, no exemplo da NCP, uma estimativa da média da distribui- 
ção amostral de x é (79 + 74 + 66)/3 = 73. Referimo-nos a essa estimativa como média global da amos- 
tra. Uma estimativa da variância da distribuição amostral de x, 02, é fornecida pela variância das três 
médias amostrais: 


Figura 10.3 Distribuição amostral de x, dado que Но seja verdadeira 


As médias amostrais estão “bem juntinhas” 
porque há somente uma distribuição 
amostral quando H é verdadeira 
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4 09 - 73 + (74 — 73) + (66 — 73)? 86 
“o 3-1 2.9 


Uma vez que 02 = о?/п, a resolução de o? fornece 
а? = по? 
Portanto, 
Estimativa de 02 = n (Estimativa de 02) = ns = 6(43) = 258 


O resultado, ns; = 258, denomina-se estimativa de 02 entre tratamentos. 


A estimativa de 02 entre tratamentos baseia-se na suposição de que a hipótese nula é verdadeira. Nesse 
caso, cada amostra é proveniente da mesma população e há somente uma distribuição amostral de x. Para 
ilustrar o que acontece quando Ho é falsa, suponha que todas as médias populacionais difiram. Note que, 
desde que as três amostras sejam provenientes de populações normais com diferentes médias, elas resul- 
taráo em três diferentes distribuições amostrais. A Figura 10.4 mostra que, nesse caso, as médias amos- 
trais não estão tão próximas como estavam quando Hj, era verdadeira. Dessa forma, 52 será maior, fazen- 
do que a estimativa de o? entre tratamentos seja maior. Em geral, quando as médias populacionais não são 
iguais, a estimativa entre tratamentos superestima a variância populacional 02. 

A variância que ocorre dentro de cada uma das amostras também tem um efeito sobre a conclusão a que 
chegamos ao realizar a análise de variância. Quando uma amostra aleatória simples é selecionada de cada 
população, cada uma das variâncias amostrais fornece uma estimativa sem viés de 92. Portanto, podemos 
combinar ou agrupar as estimativas individuais de o? em uma estimativa global. A estimativa global de 02 
obtida dessa maneira é chamada estimativa agrupada ou estimativa de a? dentro dos tratamentos. Uma vez 
que cada variância amostral fornece uma estimativa de g? baseada somente na variação existente dentro de 
cada amostra, a estimativa de g? dentro dos tratamentos não é afetada pelo fato de as médias populacionais 
serem ou não serem iguais. 


Figura 10.4 Distribuições amostrais de x, dado que Hg seja falsa 


As médias amostrais são provenientes 
de diferentes distribuições amostrais e não 
estão tão próximas entre si quando Hg é falsa 


Quando os tamanhos das amostras são iguais, a estimativa de 02 dentro dos tratamentos pode ser obti- 
da calculando-se a média das variâncias amostrais individuais. Para o exemplo da NCP, obtemos 
34 + 20 +32 86 


Estimativa de o? dentro dos tratamentos = «370073 = 28,67 


No exemplo da NCP, a estimativa de 02 entre tratamentos (258) é muito maior que a estimativa de g2 
dentro dos tratamentos (28,67). Realmente, a razão dessas duas estimativas é 258/28,67 = 9,00. Lembre- 
se, porém, de que a abordagem entre tratamentos produz uma boa estimativa de o? somente se a hipótese 
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nula for verdadeira; se a hipótese nula for falsa, a abordagem entre tratamentos superestimará 02. O crité- 
rio dentro do tratamento fornece uma boa estimativa de o? em qualquer um dos casos. Desse modo, se а 
hipótese nula for verdadeira, as duas estimativas serão similares e suas razões serão próximas de 1. Se a 
hipótese nula for falsa, a estimativa entre tratamentos será maior que a estimativa dentro dos tratamentos, 
e a razão entre elas será grande. Na próxima seção, mostraremos qual deve ser o tamanho dessa razão para 
rejeitarmos Ho. 

Em suma, a lógica que há por trás da análise de variância (ANOVA) baseia-se no desenvolvimento de 
duas estimativas independentes da variância populacional o2 comum. Uma estimativa de 02 baseia-se na 
variabilidade existente entre as próprias médias amostrais, e a outra estimativa de 02 baseia-se na variabi- 
lidade dos dados existentes dentro de cada amostra. Ao comparar essas duas estimativas de 0?, seremos 
capazes de determinar se as médias populacionais são iguais. 


NOTAS E COMENTÁRIOS 


Nas Seções 10.1 e 10.2, apresentamos métodos estatísticos para testar as hipóteses de que duas médias 
populacionais são iguais. A ANOVA também pode ser usada para testar as hipóteses de que duas 
médias populacionais são iguais. Na prática, entretanto, a análise de variância geralmente não é usada 
enquanto não se lida com três ou mais médias populacionais. 


10.5 ANÁLISE DE VARIÂNCIA: COMO TESTAR A IGUALDADE 
DE k MÉDIAS DA POPULAÇÃO 


A análise de variância pode ser usada para testar a igualdade de k médias populacionais. A forma geral das 
hipóteses testadas é: 


Hy = ш =... = ш 
H,: Nem todas as médias populacionais são iguais 


em que 
Hj = média da j-ésima população 


Supomos que a amostra aleatória simples de tamanho n; tenha sido selecionada de cada uma das k 
populações ou tratamentos. Em relação aos dados amostrais resultantes, admitimos que: 


ху = valor da observação i para o tratamento j 
= número de observações para o tratamento j 
= média amostral para o tratamento ј 

= variância amostral para o tratamento j 


5; = desvio padrão amostral para o tratamento j 


y ME 


As fórmulas correspondentes à média amostral e à variância amostral para o tratamento j são as seguintes: 


= (10.10) 


52 = EI (10.11) 


A média global da amostra, denotada por X, é a soma de todas as observações dividida pelo número total 
de observações. Ou seja, 
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= ј= іе 
= (10.12) 
em que 
np— тъп + п (10.13) 


Se o tamanho de cada amostra for п, ny = kn. Nesse caso, a Equação (10.12) se reduz а: 


k k ^ k 
ihe hie És 
X in k k (10.14) 


Em outras palavras, quando quer que os tamanhos de amostra sejam iguais, a média global da amostra é 
simplesmente o valor médio das k médias amostrais. 

Uma vez que cada amostra no exemplo da NCP consiste em n = 6 observações, a média global de 
amostra pode ser calculada usando-se a Equação (10.14). Para os dados da Tabela 10.3, obtivemos o 
seguinte resultado: 


279474466 — 


73 
3 


и 


Se a hipótese nula for verdadeira (и = t; = из = И). A média global da amostra igual а 73 será a melhor 
estimativa da média populacional и. 


Estimativa da Variância Populacional entre Tratamentos 


Na seção anterior, introduzimos o conceito de estimativa de 02 entre tratamentos e mostramos como cal- 
culá-la quando os tamanhos de amostra são iguais. Essa estimativa de 02 é chamada quadrado da média 
em razão do tratamento e é denotada por MSTR (mean square due to treatments). A fórmula geral para 
calcular a MSTR é: 


MSTR = £—  — (10.15) 


O numerador da Equação (10.15) é chamado soma dos quadrados dos tratamentos e é denotado por SSTR 
(sum of squares due to treatments). O denominador, k — 1, representa os graus de liberdade associados à 
SSTR. Portanto, o quadrado médio dos tratamentos pode ser calculado pela seguinte fórmula. 


QUADRADO MÉDIO DOS TRATAMENTOS 


SSTR 
MSTR = (10.16) 
k-1 
em que 
k 
SSTR = $, n; — 3 (10.17) 
j=1 


Se Не for verdadeira, a MSTR produzirá uma estimativa sem viés de g?. Entretanto, se as médias de k 
populações não forem iguais, a MSTR não será uma estimativa sem viés de 07; realmente, nesse caso, a 
MSTR deve superestimar 02. 

Em relação aos dados da NCP apresentados na Tabela 10.3, obtemos os seguintes resultados: 
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SSTR = Уу пя, — Xy! = 6(79 — 132 + 6(74 — 732 + 6(66 — 73) = 516 
j=1 
SSTR — 516 

MSTR = 1 172 = 258 


Estimativa da Variáncia Populacional dentro de Tratamentos 


Anteriormente, introduzimos o conceito de estimativa de g? dentro de tratamentos e mostramos como cal- 
culá-la quando os tamanhos de amostra fossem iguais. Essa estimativa de 02 é chamada quadrado médio 
dos erros, e é denotada por MSE (mean square due to error). A fórmula geral para calcular o MSE é: 


k 
' >, - Ds) 
MSE = IL —— (10.18) 
n—k. 
O numerador da Equação 10.18 é denominado soma dos quadrados dos erros e é denotado por SSE (sum 
of squares due to error). O denominador de MSE, n; — k, é o grau de liberdade associado à SSE. Portanto, 
a fórmula para calcular MSE também pode ser definida da seguinte forma: 


QUADRADO MÉDIO DOS ERROS 


MsE = SS (10.19) 
пр К 
em que 
k 
SSE = Y - )s (10.20) 
j=1 


Observe que o MSE baseia-se na variação dentro de cada um dos tratamentos; ele não é influenciado pelo 
fato de a hipótese nula ser ou não ser verdadeira. Desse modo, o MSE sempre produz uma estimativa sem 
viés de 02, 

Em relação aos dados da NCP apresentados na Tabela 10.3, obtemos os seguintes resultados: 


k . 
SSE = Sn, — Ds? = (6 — 134 + (6 — 120 + (6 — 132 = 430 
j=1 


SSE 430 — 430 
MSE 28,67 
пр Е 18-3 15 " 


Comparando as Estimativas de Variáncia: о Teste F 


Se a hipótese nula for verdadeira, o MSTR e o MSE produzem duas estimativas independentes da variân- 
cia populacional 02. Quando a hipótese nula é verdadeira e as pressuposições ANOVA são válidas, a dis- 
tribuição amostral da razão MSTR/MSE tem uma distribuição F com k — 1 graus de liberdade no nume- 
rador e пт — 1 graus de liberdade no denominador. A forma geral dessa distribuição F é mostrada na Figura 
10.5. Se a hipótese nula for verdadeira, o valor de MSTR/MSE parecerá que é proveniente dessa distribui- 
ção. Entretanto, se a hipótese nula for falsa, o valor de MSTR/MSE sofrerá uma inflação, porque um 
MSTR grande produz uma estimativa em excesso de 02. Os valores de MSTR/MSE que levam à rejeição 
da hipótese nula estarão na cauda superior da distribuição mostrada na Figura 10.5. 

Com a decisão de rejeitar a hipótese nula Ho baseando-se na razão MSTR/MSE, essa razão torna-se a 
estatística de teste do teste de hipóteses sobre a igualdade de k médias populacionais. A estatística de teste 
é a seguinte: 


ESTATÍSTICA DE TESTE DA IGUALDADE DE k MÉDIAS POPULACIONAIS 
_ MSTR 
MSE 


A distribuição F tem k — 1 graus de liberdade no numerador e n; — k graus de liberdade no denominador. 


(10.21) 
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Retornemos ao exemplo da National Computer Products e usemos um nível de significância о = 0,05 
para realizar o teste de hipóteses. As hipóteses nula e alternativa são redefinidas da seguinte maneira: 


Ну pa = pa = из 
Ну: Nem todas as médias populacionais são iguais 


Figura 10.5 Distribuição F: a distribuição amostral de MSTR/MSE 


Distribuição amostral 
de MSTR/MSE 


" p= МТА 
0 -~ МЕ 
Com MSTR = 258 e MSE = 28,67 calculados anteriormente, o valor da estatística de teste é 


_ МӘТЕ 258 _ 
MSE 2867 


Os graus de liberdade do numerador são k— 1 = 3 — 1 = 2, e os graus de liberdade do denominador são 
np-k = 18 —3 = 15. Uma vez que rejeitamos a hipótese пша para valores grandes da estatística de teste, 
calcularemos o valor p como a área da cauda superior da distribuição F à direita da estatística de teste 
Е = 9. А regra de rejeição de Но dos testes de hipótese habituais se o valor p = a aplica-se nesse caso. 

A Tabela 10.4 apresenta uma parte da tabela de distribuição F que será útil nesse exemplo. Usando 2 
graus de liberdade no numerador e 15 graus de liberdade no denominador, essa tabela exibe as seguintes 
áreas na cauda superior: 


Área da Cauda Superior | 0,10 0,05 0,025 0,01 
Valor F (gl, = 2, gh = 15) Г 220 3,68 477 6,36 


Já que F — 9 é maior que 6,36, a área da cauda superior em F — 9 é menor que 0,01. Desse modo, o 
valor p é menor que 0,01. Com o valor p = a = 0,05, Ho é rejeitada. O teste fornece suficientes evidên- 
cias para concluirmos que as médias das três populações não são iguais. Em outras palavras, a análise de 
variância sustenta a conclusão de que a média populacional das notas de exame nas três fábricas da NCP 
não é igual, 

Visto que a tabela F somente fornece valores para áreas da cauda superior correspondentes a 0,10, 0,05, 
0,025 e 0,01, não podemos determinar o valor p exato diretamente da tabela. O Minitab ou o Excel forne- 
cem o valor p como parte da saída de dados padrão ANOVA. Os Apéndices 10.3 e 10.4 apresentam os pro- 
cedimentos que podem ser usados. Quanto ao exemplo da NCP, o valor p exato correspondente à estatís- 
tica de teste F = 9 é 0,003. 

À semelhança do que ocorre com outros procedimentos de teste de hipóteses, o critério do valor críti- 
co também pode ser usado. Com a = 0,05, o valor F crítico ocorre com uma área de 0,05 na cauda supe- 
rior de uma distribuição F com 2 e 15 graus de liberdade. Na tabela de distribuição F, encontramos 
Foos = 3,68. Portanto, a regra de rejeição apropriada da cauda superior para o exemplo da NCP é: 


Rejeitar Ho se F = 3,68 


Com F = 9, rejeitamos Ное concluímos que as médias das três populações não são iguais. Um resumo do 
. procedimento global para testar a igualdade de k médias populacionais é apresentado a seguir: 
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TESTE DA IGUALDADE DE k MÉDIAS POPULACIÓNAIS 


Нуш = и) =... = ц 
H,: Nem todas as médias populacionais são iguais 
ESTATÍSTICA DE TESTE 
. MSTR 
MSE 
REGRA DE REJEIÇÃO ` 
Critério do valor p: Rejeitar Ho se o valor p = q 
Critério do valor crítico: Rejeitar Ho se Е = Р, 


em que o valor de F, baseia-se em uma distribuição F com k — 1 graus de liberdade no numerador e 
пт — К graus de liberdade no denominador. 


Tabela 10.4 Valores selecionados da tabela de distribuição F 


Área, ou 
probabilidade 


0 F 
Graus de . Area da Graus de Liberdade do Numerador 
Liberdade do Cauda 
Denominador Superior i 2 3 4 5 
10 0,10 329 2,92 2,73 2,61 2,52 
0,05 4,96 4,10 3,71 3,48 3,33 
0,025 6,94 5,46 4,83 4,47 4,24 
0,0 10,04 7,56 6,55 5,99 5,64 
15 0,10 3,07 270 2,49 2,36 2.27 
0,05 454 3,68 3,29 3,06 2,90 
0,025 6,20 477 4,15 3,80 3,58 
00 8,68 6,36 542 4,89 4,56 
20 0,10 2,97 2,59 2,38 2,25 2,16 
0,05 435 3,49 3,10 2,87 2,71 
0,025 5,87 4,46 . 3,86 3,51 . 3,29 
0,0 8,10 5,85 4,94 4,43 4,10 
25 0,10 292 2,53 2,32 2,18 2,09 
0,05 424 3,39 2,99 276 > 2,60 
0,025 5,69 4,29 3,69 3,35 3,13 
0,0 7,77 5,57 4,68 4,18 3,85 
30 0,10 2,88 2,49 2,28 2,14 2,05 
0,05 4,17 3,32 2,92 2,69 2,53 
0,025 5,57 4,18 3,59 3,25 3,03 
00 7,56 5,39 4,51 402 3,70 


Nota: A Tabela 4 do Apéndice B é uma tabela mais completa. 
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A Tabela ANOVA 


Os resultados dos cálculos anteriores podem ser exibidos convenientemente em uma tabela denominada 
tabela de análise de variância, ou tabela ANOVA.“ A Tabela 10.5 é a tabela de análise de variância cor- 
respondente ao exemplo da National Computer Products. A soma de quadrados associada à fonte de varia- 
ção que recebe o rótulo de “Total” denomina-se soma total dos quadrados — SST (total sum of squares). 
Observe que os resultados correspondentes ao exemplo da NCP apresentam SST = SSTR + SSE, e que 
os graus de liberdade associados a essa soma total de quadrados é a soma dos graus de liberdade associa- 
dos com a estimativa de g? entre tratamentos e com a estimativa de o? dentro de tratamentos. 


Tabela 10.5 Tabela de análise de variância do exemplo da NCP 


Fonte de Soma dos Graus de Quadrado 

Variação Quadrados Liberdade Médio F 
Tratamentos 516 2 258,00 9,00 
Erro 430 15 28,67 

Total 946 17 


Destacamos que a soma total dos quadrados (SST) dividida por seus graus de liberdade пг — 1 é a 
variância amostral global que seria obtida se tratássemos o conjunto inteiro de 18 observações como um 
conjunto de dados. Quando se tem o conjunto de dados inteiro como uma única amostra, a fórmula para 
calcular a soma total dos quadrados, SST, é: 


k h 
SST = У Ух, - xy 


j=lisl 


(10.22) 


Pode-se demonstrar que os resultados que observamos na tabela de análise de variáncia corresponden- 

tes ao exemplo da NCP também se aplicam a outros problemas. Ou seja, 
SST = SSTR + SSE (10.23) 

Em outras palavras, a SST pode ser dividida em duas somas de quadrados: a soma de quadrados dos tra- 
tamentos e a soma de quadrados dos erros. Note também que os graus de liberdade correspondentes a SST, 
ny — 1, podem ser divididos nos graus de liberdade correspondentes a SSTR, k — 1, e nos graus de liberda- 
de correspondentes a SSE, nz — К. A análise de variância pode ser vista como um processo de partição da 
soma total dos quadrados e os graus de liberdade em suas fontes correspondentes: tratamentos e erro. 
Dividir a soma dos quadrados pelos graus de liberdade apropriados produzirá as estimativas de variância 
e o valor F que são usados para testar a hipótese de médias populacionais iguais. 


Resultados de Computador para a Análise de Variância 


Em virtude da ampla disponibilidade de pacotes de software estatístico, os cálculos da análise de variân- 
cia com tamanhos de amostra grandes ou com um número grande de populações podem ser executados 
facilmente. Na Figura 10.6, apresentamos a saída de dados (output) correspondente ao exemplo da NCP 
obtida pelo software Minitab. A primeira parte da saída de dados do software contém o familiar formato 
da tabela ANOVA. Comparando a Figura 10.6 com a Tabela 10.5, vemos que a mesma informação está 
disponível, não obstante alguns cabeçalhos serem ligeiramente diferentes. O cabeçalho Source (Fonte) é 
usado para a coluna Source of Variation (Fonte de Variação), e Factor (Fator) identifica a linha Treatments 
(Tratamentos). As colunas Sum of Squares (Soma de Quadrados) e Degrees of Freedom (Graus de 
Liberdade) estão permutadas, e o valor p é fornecido para o teste F. Dessa forma, com o nível de signifi- 
cáncia а = 0,05, rejeitamos Ho porque o valor p = 0,003 = a = 0,05. 

Observe que depois da tabela de análise de variância (ANOVA), a saída de dados contém os respecti- 
vos tamanhos de amostra, as médias amostrais e os desvios padrão. Além disso, o Minitab produz uma 


4 NT: ANOVA ~ Sigla de analysis of variance (análise de variância). 
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imagem que exibe as estimacóes por intervalo individuais com 95% de confiança de cada média popula- 
cional. Para desenvolver essas estimações por intervalo de confiança, o Minitab usa o MSE como estima- 
tiva de о?, Desse modo, a raiz quadrada de MSE produz a melhor estimativa do desvio padrão с da popu- 
lação. Essa estimativa de o na saída de dados de computador é Pooled StDev (Desvio Padrão Agrupado); 
ele é igual a 5,354. Para apresentarmos uma ilustração de como essas estimações por intervalo são desen- 
volvidas, calcularemos uma estimação por intervalo com 95% de confiança da média populacional corres- 
pondente à fábrica de Atlanta. 


Figura 10.6 Saída de dados do Minitab para a análise de variância da NCP 


Analysis of Variance : . „+ | 
Source ОЕ ss MS: F "p С 


Factor 2 516.0 258.0 9.00 0.003. 
Error 15 430.0 28.7 
Total , 17 > 946.0 


Individual 95% Cis For Mean 
Based on Pooled StDev ` 


Level N Mean StDev  ---4t--------- 4--------- +--------- +--- 
Atlanta 6 79.000 5.831 И (----- *----- ) * 
Dallas. 6 74.000 
Seattle 6 66.000 
Pooled StDev = 5.354 


Do estudo de estimacáo por intervalo que realizamos no Capítulo 8, sabemos que a forma geral de uma 
estimação por intervalo de uma média populacional é: 


FED x (10.24) 


em que o é a estimativa do desvio padrão s da população. Na análise de variância, a melhor estimativa 
de с é fornecida pela raiz quadrada do MSE ou do Desvio Padrão Agrupado (Pooled StDev); portanto, 
usamos o valor 5,354 para s na Equação 10.24. O grau de liberdade para t, é 15, ou seja, o grau de liber- 
dade associado à estimativa de 02 dentro de tratamentos. Portanto, com 95% de confiança, temos 9,025 = 
2,131е 


5,354 


v6 


79 + 2,31 


= 79 + 4,66 


Assim, o intervalo de confianga individual de 95% para a fábrica de Atlanta abrange 79 — 4,66 = 74,34 a 
79 + 4,66 = 83,66. Uma vez que os tamanhos de amostra são iguais para o exemplo da NCP, os interva- 
los de confianga individuais para as fábricas de Dallas e Seattle também sáo construídos adicionando-se e 
subtraindo-se 4,66 de cada média amostral. Desse modo, na imagem produzida pelo Minitab, notamos que 
as larguras dos intervalos de confiança são idênticas.” 


Exercícios 


Métodos 


27. Cinco observações foram selecionadas de três populações. Os dados obtidos são os seguintes: 
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Observação Amostra | Amostra 2 Amostra 3 

i 32 44 33 

2 30 43 36 

3 30 44 35 

4 26 46 36 

5 32 48 40 
Média da amostra 30 45 36 
Variância da amostra 6,00 4,00 6,50 


a. Calcule a estimativa de g? entre tratamentos 

b. Calcule a estimativa de c? dentro de tratamentos. 

c. Com o nível de significância а = 0,05, podemos rejeitar a hipótese nula de que as médias das três 
populações são iguais? 

d. Crie a tabela ANOVA para esse problema, 


28. Quatro observações foram selecionadas de cada uma de três diferentes populações. Os dados obtidos 
são os seguintes: 
Observação Amostra | Amostra 2 Amostra 3 
| 165 174 169 » 
2 149 164 154 
3 156 180 161 
4 142 158 148 
Média da amostra 153 169 158 
Variância da amostra 96,67 97,33 82,00 
a. Calcule a estimativa de 02 entre tratamentos 
b. Calcule a estimativa de o? dentro de tratamentos. 
c. Com o nível de significância а = 0,05, podemos rejeitar a hipótese nula de que as médias das três 
populações são iguais? Explique. 
d. Crie a tabela ANOVA para esse problema. 
29. Amostras foram selecionadas de três populações. Os dados obtidos são os seguintes: 
Amostra | Amostra 2 Amostra 3 
93 77 88 
98 87 75 
107 84 73 
102 95 84 
85 75 
82 
* 100 85 79 
5? 35,33 35,60 43,50 
a. Calcule a estimativa de o? entre tratamentos. 
b. Calcule a estimativa de 0? dentro de tratamentos. 
с. Com o nível de significância а = 0,05, podemos rejeitar a hipótese nula de que as médias das trés 
populações são iguais? Explique. 
d. Crie a tabela ANOVA para esse problema. 
30. Uma amostra aleatória de 16 observações foi selecionada de cada uma de quatro diferentes popula- 


ções. Uma parte da tabela ANOVA é apresentada a seguir: 


Fonte de Soma dos Graus de Quadrado 

Variação Quadrados Liberdade Médio F 
Tratamentos 400 

Erro 

Total 1.500 


a, Preencha os lançamentos que faltam na tabela ANOVA. 
b. Com o nível de significância a = 0,05, podemos rejeitar a hipótese nula de que as médias das qua- 
tro populações são iguais? 


384 


ARQUIVO 
DA INTERNET 


Technology 


Estatística Aplicada à Administracáo e Economia 


31. 


Amostras aleatórias de 25 observações foram selecionadas de cada uma de três diferentes populações. 

Para esses dados, a SSTR = 120 e a SSE = 216. 

a, Crie a tabela ANOVA para esse problema. 

b. Com o nível de significância « = 0,05, podemos rejeitar a hipótese nula de que as médias das três 
populações são iguais? 


Aplicações 


32. A fim de testar se o tempo médio necessário para misturar um lote de materiais é o mesmo para máqui- 


nas produzidas por três diferentes fabricantes, a Jacobs Chemical Company obteve os seguintes dados 
sobre o tempo (em minutos) necessário para misturar os materiais. Use esses dados para testar se o 
tempo médio populacional para misturar um lote de materiais difere em relação aos três fabricantes. 
Use а = 0,05. 


Fabricante 
1 2 3 
20 28 20 
26 26 19 
24 3l 23 
22 27 22 
33. O Texas Transportation Institute, da Texas A&M University, realizou uma pesquisa para determinar 
o número de horas por ano que os motoristas gastavam no tránsito. Das 75 áreas urbanas estudadas, 
a mais congestionada foi Los Angeles, onde os motoristas gastavam em média 90 horas por ano (U.S. 
News & World Report, 13 de outubro de 2003). Entre outras áreas urbanas congestionadas contavam- 
se Denver, Miami e Sáo Francisco. Suponha que dados amostrais de seis motoristas de cada uma des- 
sas cidades apresentem o seguinte número de horas gastas por ano no tránsito: 
Denver Miami São Francisco 
70 66 65 
62 70 62 
71 55 74 
58 65 69 
57 56 63 
66 66 75 
а. Calcule a média amostral de horas gastas por ano correspondente a cada uma dessas áreas urbanas. 
b. Usando а = 0,05, teste as diferenças de significância entre a média populacional de tempo gasto 
correspondente a cada uma dessas três áreas urbanas. Qual é o valor p? Qual é a sua conclusão? 
34. Nova York, Boston e o Vale do Silício na Califórnia estão entre as regiões que apresentam os maiores 
salários no setor de tecnologia nos Estados Unidos (USA Today, 28 de fevereiro de 2002). Os dados 
amostrais seguintes apresentam os salários anuais individuais expressos em milhares de dólares. 
Nova York Boston Yale do Silício 
82 85 82 
79 80 9] 
72 74 94 
89 78 88 
79 75 85 
85 80 
86 
74 
Use a = 0,05 e teste a diferença de significância entre a média populacional de salários do setor de tec- 
nologia correspondentes a essas três localidades. Qual é o valor p? Qual é a sua conclusão? Se existe 
uma diferença, qual localidade parece ter a média de salário mais elevada para o setor de tecnologia? 
35, Um estudo divulgado no Journal of Small Business Management concluiu que as pessoas que trabalham 


como autônomos enfrentam maior grau de estresse no trabalho do que as pessoas que não são autôno- 
mas. Nesse estudo, o estresse no trabalho foi avaliado de acordo com uma escala de 15 itens idealiza- 
dos para medir vários aspectos referentes a ambigüidade e conflito de cargos. As avaliações referentes 
a cada um dos 15 itens foram feitas com base em uma escala de 1 a 5 que indicava opções de resposta 
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que variavam de forte concordância a forte discordância, A soma das avaliações referentes aos 15 itens 
correspondentes a cada indivíduo pesquisado situa-se entre 15 e 75, e os valores mais elevados indicam 
maior grau de estresse no trabalho. Suponha que uma abordagem idêntica, usando uma escala de 20 
itens com opções de resposta de 1 a 5, seja usada para avaliar o grau de estresse no trabalho de 15 agen- 
tes imobiliários, 15 arquitetos e 15 corretores da bolsa selecionados aleatoriamente, 


Agente Imobiliário Arquiteto Corretor da Bolsa 
81 43 65 
48 63 48 
68 60 57 
69 52 9] 
54 54 70 
62 77 67 
76 68 83 
56 57 75 
6l 6i 53 
65 80 71 
64 50 54 
69 37 72 
83 73 65 
85 84 58 
75 58 58 


Use a = 0,05 para testar se há quaisquer diferenças significativas no grau de estresse no trabalho 
entre as três profissões. 


36. A Condé Nast Traveler realiza uma pesquisa anual na qual os leitores classificam seus navios de cru- 
zeiro preferidos. As avaliações fornecidas referem-se a navios pequenos (que transportam até 500 
passageiros), navios de porte médio (que transportam de 500 a 1.500 passageiros) e navios grandes 
(que transportam, no mínimo, 1.500 passageiros). Os dados a seguir mostram as avaliações de servi- 
ço relativas a oito navios pequenos selecionados aleatoriamente, oito navios de porte médio selecio- 
nados aleatoriamente e oito navios grandes selecionados aleatoriamente. Todos os navios são avalia- 
dos em uma escala de 100 pontos, e os valores mais elevados indicam melhor serviço (Condé Nast 
Traveler, fevereiro de 2003). 


Navios Pequenos Navios de Porte Médio Navios Grandes 
Nome Avaliação Моте Avaliação Моте Avaliação 
Hanseactic 90,5 Amsterdam 91,1 Century 89,2 
Mississippi Queen 78,2 Crystal Symphony 98,9 Disney Wonder 90,2 
Philae 92,3 Maasdam 94,2 Enchantment of the Seas 85,9 
Royal Clipper 95,7 Noordam 84,3 Grand Princess 842 
Seabourn Pride 94,1 Royal Princess 84,8 Infinity 90,2 
Seabourn Spirit 100 Ryndam 892 Legend of the Seas 80,6 
Silver Cloud 91,8 Statendam 86.4 Paradise 75,8 
Silver Wind 95 Veendam 88,3 Sun Princess 823 


Use a = 0,05 para testar se há quaisquer diferenças significativas na média de avaliações do serviço 
entre os três tamanhos de navios de cruzeiro. 


Resumo 


Neste capítulo, apresentamos procedimentos para comparar duas ou mais médias populacionais. 
Primeiramente, mostramos como fazer inferências sobre a diferença entre duas médias populacionais 
quando amostras aleatórias simples independentes são selecionadas. Consideramos o caso em que se pode 
supor que os desvios padrão populacionais су e сз são conhecidos. A distribuição normal padrão z foi 
usada para desenvolver a estimação por intervalo e serviu como estatística de teste os para testes de hipó- 
teses. Depois, consideramos o caso em que os desvios padrão populacionais eram desconhecidos e esti- 
mados pelos desvios padrão amostrais s; e s). Nesse caso, a distribuição г foi usada para desenvolver a esti- 
mação por intervalo e serviu como estatística de teste para os testes de hipóteses, 

Discutimos, então, as inferências sobre a diferença entre duas médias populacionais para o projeto de 
amostras relacionadas (ou dependentes). No projeto de amostras relacionadas, cada elemento fornece um 
par de valores de dados, sendo um de cada população. A diferença entre os valores de dados emparelha- 
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dos é então usada na análise estatística. O projeto de amostras relacionadas geralmente é preferível ao pro- 
jeto de amostras independentes porque o projeto de amostras relacionadas frequentemente melhora a pre- 
cisão da estimativa. 

Finalmente, mostramos como a análise de variância pode ser usada para testar as diferenças entre três 
ou mais médias populacionais. O procedimento de análise de variância usa duas estimativas da variância 
populacional, 02. À razão entre essas duas estimativas (a estatística F) pode ser usada para produzir o valor 
p e para determinar se a hipótese nula de que as médias populacionais são iguais deve ou não ser rejeitada. 


Glossário 


Amostras aleatórias simples independentes Amostras selecionadas de duas (ou mais) populações, de tal 
forma que os elementos que compõem uma amostra são escolhidos independentemente dos elementos 
que compõem a outra amostra. 

Amostras relacionadas (ou dependentes) Amostras nas quais cada valor de dados de uma amostra se 
relaciona com um valor de dados correspondente da outra amostra. 

Análise de variância (ANOVA) Uma técnica estatística que pode ser usada para testar a hipótese de que 
três ou mais médias populacionais são iguais. 

Distribuição F Uma distribuição que se baseia na razão de duas estimativas independentes da variância 
de uma população normal. A distribuição é usada em testes de hipóteses sobre a igualdade de k médias 
populacionais. 

Tabela ANOVA Uma tabela utilizada para resumir os cálculos e os resultados da análise de variância. Ela 
contém colunas que exibem a fonte de variação, a soma dos quadrados, os graus de liberdade, o qua- 
drado médio e o valor F. : 

Partição O processo de alocar a soma total de quadrados e graus de liberdade a vários componentes. 


Fórmulas-Chave 


Estimador por Ponto da Diferença entre Duas Médias Populacionais 


х 1, (10.1) 
Erro padrão de x, e x; 
Z 2 
= [01 92 
Os s, = Г + п, (10.2) 


Estimação por Intervalo da Diferença entre as Médias de Duas Populações: оу e q, Conhecidos 


в-а Sá (10.4) 


Estatística de Teste para Testes de Hipóteses sobre р; — 4; Quando ос, e с, São Conhecidos 


G-I)-D, 


z= DE (10.5) 
0; о? - 
Jd n n 


Estimação por Intervalo da Diferença entre Duas Médias Populacionais Quando с; e o, São 


Desconhecidos 
2 2 
_ 5 5 
E-Àhifü a tg (10.6) 


Graus de Liberdade da Distribuição t Quando se Usam Duas Amostras Aleatórias Independentes 


(10.7) 
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Estatística de Teste para Testes de Hipótese sobre д; — 4; Quando су e о, São Desconhecidos 


x -3)-D 
p= L9 Do (10.8) 
52 52 
51 52 
п no 
Estatística de Teste para Testes de Hipótese que Envolvem Amostras Relacionadas 
(ou Dependentes) 
а-и, 
t= — 10.9 
svn (10.9) 
Média Amostral para o Tratamento j 
п, 
> *j 
= — izi 
ã= EN (10.10) 
Variáncia Amostral para o Tratamento j 
n 
Xo; * Dá 
2 і=1 
doi „11 
ГЕТ (10.11) 
Média Global da Amostra 
kon 
22% 
p.c (10.12) 
T 
преп + п te +m (10.13) 
Quadrado Médio dos Tratamentos 
SSTR 
MSTR = —— (10.16) 
k-1 
Soma de Quadrados dos Tratamentos 
k 
SSTR = Sn, — xy (10.17) 
j=1 
Quadrado Médio dos Erros 
SSE 
MSE = (10.19) 
np-k 
Soma de Quadrados dos Erros 
k 
SSE = Sn - Ds (10.20) 
j=1 ` 
Estatística de Teste da Igualdade de k Médias Populacionais 
MSTR 
= 10.21 
MSE ( ) 
Soma Total dos Quadrados 
ko" 
SST = Y 5, – Xy (10.22) 


j=li=1 
Partição da Soma de Quadrados 
SST = SSTR + SSE (10.23) 
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Exercícios Suplementares 


37. A Safegate Foods, Inc., está redesenhando a posicáo dos caixas em seus supermercados em todo o 


país e está considerando dois desenhos (designs). Testes para verificar o tempo de que os clientes 
necessitam para serem atendidos nos caixas foram realizados em duas lojas onde os dois novos siste- 
mas foram instalados e os resultados sáo apresentados no seguinte resumo: 


Sistema A Sistema B 
ny = t20 m = 100 
X, = 4,1 minutos X; = 3,4 minutos 
9, = 2,2 minutos a= l,5 minuto 


Teste, com o grau de significáncia 0,05, e determine se a média populacional dos tempos de atendi- 
mento nos caixas dos dois sistemas diferem. Qual sistema é preferível? 


38. Os salários anuais iniciais de pessoas que tém os graus de bacharel e de mestrado em Ciéncias da 
Administracáo foram coletados em duas amostras aleatórias independentes. Use os dados apresenta- 
dos a seguir para desenvolver uma estimação por intervalo de confiança de 90% do aumento dos salá- 
rios iniciais que se pode esperar após a conclusáo de um programa de mestrado. 

Mestrado Bacharelado 
ni = 60 m = 80 
X, — US$ 45.000 X, =US$ 35.000 
g; = US$ 4.000 02 = US$ 3.500 

39. As cámeras fotográficas digitais de trés megapixels sáo, tipicamente, as mais leves, mais compactas 
e mais fáceis de usar. Entretanto, se vocé planeja ampliar ou recortar as imagens, provavelmente esta- 
rá disposto a gastar mais para obter um modelo com resolução maior. Os dados a seguir apresentam 
os preços amostrais de câmeras digitais de cinco megapixels e de trés megapixels (Consumer Reports 
Buying Guide, 2004). 

Cinco megapixels Trés megapixels 
Modelo Preço Modelo Preço 
Nikon 5700 890 Kodak DX4330 280 
Olympus C-5050 620 Canon А70 290 
Sony DCS-F717 730 Sony DSC P8 370 
Olympus C-5050 480 Minolta XI ` 400 
Minolta 7Hi 1060 Sony DSC P72 310 
НР 935 450 Nikon 3100 340 
Pentax 550 540 Panasonic DMC-LC33 270 
Canon 550 500 Pentax S 380 
Kyocera TVS 890 
Minolta F300 440 
a. Forneça uma estimação por ponto das diferenças entre a média populacional de preços correspon- 
dentes aos dois tipos de câmera digital. Quais observações você é capaz de fazer sobre o preço do 
modelo de cinco megapixels de maior qualidade? 
b. Desenvolva uma estimação por intervalo de 95% de confiança da diferença entre as duas médias 
populacionais de preços. 
40. Os fundos mútuos são classificados como load ou no-load. Os load funds exigem que o investidor 


pague uma taxa inicial baseada em uma porcentagem da quantia investida no fundo mútuo. Os no- 
load funds não exigem essa taxa inicial. Alguns consultores financeiros argumentam que os load 
mutual funds podem valer a taxa extra, porque esses fundos rendem uma taxa média de retorno mais 
alta que os no-load mutual funds. Uma amostra de 30 load mutual funds e uma amostra de 30 no-load 
mutual funds foram selecionadas. Dados foram coletados sobre o rendimento anual dos fundos ao 
longo de um período de cinco anos. Os dados estão contidos no conjunto de dados (data set) intitu- 
lado Mutual. Os dados correspondentes aos cinco primeiros load funds e aos cinco primeiros no-load 
funds são os seguintes: 
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Fundos Mutual — Load Rendimento Fundos Mutual — No-Load Rendimento 
American National Growth 15,51 Amana Income Fund 1324 
Arch Small Cap Equity 14,57 Berger One Hundred 12,13 
Bartlett Cap Basic 17,73 Columbia International Stock 12,17 
Calvert World International 10,31 Dodge & Cox Balanced 16,06 
Colonial Fund A 16,23 Evergreen Fund 17,61 


a. Formule Ну e H, de forma que a rejeição de Ho leve à conclusão de que os fundos mútuos load têm 
um retorno médio anual mais elevado ao longo de um período de cinco anos. 
b. Use os fundos mútuos de 60 dias do conjunto de dados intitulado Mutual para realizar o teste de 
hipóteses. Qual é o valor p? Com a = 0,05, qual é a sua conclusão? 
41. A National Association of Home Builders publicou dados sobre o custo dos projetos mais populares 
de reforma de residéncias. Dados amostrais sobre o custo, em milhares de dólares para dois tipos de 
projetos de reforma, são os seguintes: 


Cozinha Quarto de casal Cozinha Quarto de casal 
25,2 18,0 23,0 17,8 
17,4 22,9 19,7 24,6 
22,8 26,4 16,9 21,0 
21,9 248 21,8 
19,7 26,9 23,6 


a. Desenvolva uma estimação por ponto da diferença entre a média populacional dos custos de refor- 
ma para os dois tipos de projeto. 
b. Desenvolva um intervalo de confiança de 90% da diferença entre as duas médias populacionais. 
42. Os preços típicos das casas de moradia para uma família no estado da Flórida são apresentados a 
seguir e correspondem a uma amostra de 15 regiões metropolitanas (Naples Daily News, 23 de feve- 
reiro de 2003). Os dados estão expressos em milhares de dólares: 


Região Metropolitana Janeiro 2003 Janeiro 2002 
Daytona Beach 17 96 
Fort Lauderdale 207 69 
Fort Myers 43 29 
Fort Walton Beach 39 34 
Gainesville 3l 19 
Jacksonville 28 19 
Lakeland 91 85 
Miami 93 65 
Naples 263 233 
Ocala 86 90 
Orlando 34 21 
Pensacola 11 05 
Sarasota-Bradenton 68 41 
Tallahassee 40 30 
Tampa-St. Petersburg 39 29 


а. Use uma análise de amostras relacionadas (ou dependentes) para desenvolver uma estimagáo por 
ponto da média populacional do aumento de preços ao longo de um ano para as casas de moradia 
para uma família no estado da Flórida. 

b. Desenvolva uma estimação por intervalo de confiança de 90% para a média populacional do 
aumento de precos ao longo de um ano para as casas de moradia para uma família no estado da 
Flórida. 

c. Qual foi o aumento percentual no período de um ano? 

43. A revista Money divulga os rendimentos percentuais e os índices de despesas correspondentes aos 
fundos de títulos e ações. Os dados a seguir são os índices de despesas de dez fundos de títulos mobi- 
liários de média capitalização (midcap), de dez fundos de títulos mobiliários de pequena capitaliza- 
ção, de dez fundos de ações híbridos e de dez fundos de ações especiais (Money, março de 2003). 
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Média 
Capitalização 


ә 


КК» IB OCSMO- 


Pequena 
Capitalização Híbridos Especiais 
2,0 2,0 1,6 
1,2 2,7 2,7 
L7 1,8 26 
18 bs 2,5 
55 2,5 1,9 
23 LO 1,5 
1,9 0,9 1,6 
1,3 1,9 2,7 
1,2 1,4 2,2 
13 03 0,7 


Use а = 0,05 para testar se há alguma diferença significativa no índice médio de despesas entre os 
quatro tipos de fundos de ações. 


Os compradores de veículos utilitários esportivos e picapes têm ampla variedade de escolha no mer- 
cado atual. Um dos fatores importantes para muitos compradores é o valor de revenda do veículo. A 
tabela a seguir apresenta o valor de revenda (%) de dez utilitários esportivos, dez picapes pequenas e 
dez picapes grandes depois de dois anos de uso (Kiplinger's New Cars & Trucks 2000 Buyer's Guide). 


Valor de 
Utilitário Esportivo Revenda Picape Pequena 
Chevrolet Blazer LS 55 Chevrolet S- 10 Extended Cab 
Ford Explorer Sport 57 Dodge Dakota Club Cab Sport 
GMC Yukon XL 1500 67 Ford Ranger XLT Regular Cab 
Honda CR-V 65 Ford Ranger XLT Supercab 
Isuzu VehiCross 62 GMC Sonoma Regular Cab 
Jeep Cherokee Limited 57 Isuzu Hombre Spacecab 
Mercury Mountaineer 59 Mazda B4000 SE Cab Plus 
Nissan Pathfinder XE 54 Nissan Frontier XE Regular Cab 
Toyota 4Runner 55 Toyota Tacoma Xtracab 
Toyota RAV4 55 Toyota Tacoma Xtracab V6 
Valor de 

Picape Grande Revenda 

Chevrolet K2500 60 

Chevrolet Silverado 2500 Ext 64 

Dodge Ram 1500 54 

Dodge Ram Quad Cab 2500 63 

Dodge Ram Regular Cab 2500 59 

Ford F150 XL 58 

Ford F350 Super Duty Crew Cab XL 64 

GMC New Sierra 1500 Ext Cab 68 

Toyota Tundra Access Cab Limited 53 

Toyota Tundra Regular Cab 58 


Valor de 
Revenda 


45. 


Com o nível de confiança а = 0,05, teste se há alguma diferença significativa no valor médio de 
revenda correspondente aos trés tipos de veículo. 


A empresa Crowne Plaza Hotel and Resorts ofereceu preços especiais de fim de semana nos hotéis e 
estâncias de sua propriedade em todo o país. Uma amostra de 30 propriedades de três regiões do país 
fomeceu os seguintes preços de quartos (USA Today, 14 de abril de 2000). 


Oeste Preço ($) Sul Preço ($) Nordeste 
Albuquerque 89 Atlanta 105 Albany 
Irvine 79 Dallas 80 Boston 

Las Vegas 119 Greenville 79 Hartford 
Los Angeles 99 Houston 79 New York 
Palo Alto 109 Jackson 69 Philadelphia 
Phoenix 149 Macon 69 Pittsfield 
Portland 79 Miami 89 Providence 
San Francisco 139 Orlando 119 Washington 
San Jose 99 Richmond 109 White Plains 
Seattle 119 Татра 119 Worchester 


Preco ($) 
89 


Com о nível de significância а = 0,05, teste se os preços médios são os mesmos nas três regiões. 
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46. A National Footbal League avalia os candidatos a jogador de acordo com a posição, em uma escala 
que varia de 5 a 9. As avaliações são interpretadas da seguinte maneira: 8-9 deve começar a jogar no 
primeiro ano, 7,0-7,9 está apto a começar a jogar, 6,0-6,9 integrará o time na posição de reserva, e 
5,0-5,9 pode fazer parte do clube e contribuir. A tabela a seguir apresenta as classificações referen- 
tes a três posições de 40 candidatos a jogador na NFL (USA Today, 14 de abril de 2000). A posição 
em que o jogador joga parece ter algum efeito significativo sobre a avaliação? 


Wide Receiver Guardé ` Offensive Tackle 
Nome Classificação Nome Classificação Nome Classificação 
Peter Warrick 9,0 Cosey Coleman 74 Chris Samuels 85 
Plaxico Burress 8,8 Travis Claridge 70 Stockar McDougle 8,0 
Sylvester Morris 83 Kaulana Noa 68 Chris Mclngosh 7,8 
Travis Taylor 8,1 Leander Jordan 6,7 Adrian Klemm 7,6 
Laveranues Coles 8,0 Chad Clifton 6,3 Todd Wade 73 
Dez White 79 Manula Savea 6,1 Marvel Smith 7.l 
erry Porter 74 Ryan fohanningmeir 6,0 Michael Thompson 6,8 
Ron Dugans A! Mark Tauscher 60 Bobby Williams 6,8 
Todd Pinkston 70 Blaine Saipaia 6,0 Darnell Alford 6,4 
Dennis Northcutt 70 Richard Mercier 58 Terrance Beadles 63 
Anthony Lucas 6,9 Damion Mcintosh 53 Tutan Reyes 6,1 
Darrell Jackson 6,6 Jeno James 5,5 Greg Robinson-Ran 6,0 
Danny Farmer 6,5 А Jackson 5,5 
Sherrod Gideon 64 
Trevor Gaylor 62 


Estudo de Caso | - Par, Inc. 


A Par, Inc. é uma grande fábrica de equipamentos de golfe. A administração acredita que a participação 
de mercado da Par poderia ser aumentada com a introdução de uma bola de golfe resistente a cortes e de 
maior durabilidade. Portanto, uma equipe de pesquisa da Par investiga a produção de um novo revestimen- 
to de bolas de golfe projetado para resistir a cortes e produzir uma bola mais durável. Os testes com o 
revestimento têm sido promissores. 

Um dos pesquisadores manifestou preocupação acerca do efeito do novo revestimento sobre as distâncias 
de arremesso (driving distances). A Par gostaria que a bola com o novo revestimento atingisse distâncias de 
arremesso comparáveis às do modelo de bola de golfe atual. Para comparar as distâncias de arremesso das 
duas bolas, 40 bolas do modelo novo e do modelo antigo foram submetidas a testes de distância. Os testes 
foram executados com uma máquina de disparo mecânico a fim de que quaisquer diferenças entre as distân- 
cias médias obtidas pelos dois modelos pudessem ser atribuídas a uma diferença nos dois modelos. Os resul- 
tados dos testes, sendo as distâncias medidas em jardas, de acordo com a menor distância percorrida, são apre- 
sentados a seguir. Esses dados estão disponíveis na página do livro na internet. 


Modelo Modelo Modelo Modelo 
Atual Novo Atual Novo Atual Novo Atual Novo 
264 277 270 272 263 274 281 283 
261 269 287 259 264 266 274 250 
267 263 289 264 284 262 273 253 
272 266 280 280 263 271 263 260 
258 262 272 274 260 260 275 270 
283 251 275 281 283 281 267 263 
258 262 265 276 255 250 279 261 
266 289 260 269 272 263 274 255 
259 286 278 268 266 278 276 263 
270 264 275 262 268 264 262 279 


5 NT: Wide Receiver — O jogador que recebe os lançamentos em linha avançada para conseguir o máximo de jardas à frente (futebol 
norte-americano). 

6 NT: Guard — A primeira linha de ataque é composta pelos jogadores mais corpulentos do time, sendo sua função bloquear a defesa 
adversária. Essa primeira linha é composta por um center, dois guards, dois offensive tackles e um tight end(futebol norte-americano). 
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Relatório Administrativo 


1. Formule e apresente o fundamento lógico para o teste de hipóteses que a Par poderia usar para com- 
parar as distáncias de arremesso das bolas de golfe atual e nova. 

2. Analise os dados para fornecer а conclusão do teste de hipóteses. Qual é o valor p de seu teste? 
Qual é a sua recomendacáo à Par, Inc.? 


3. Apresente sumários estatísticos dos dados correspondentes a cada modelo. 


4. Qual é o intervalo de confianga de 95% da média populacional de cada modelo, e qual é o interva- 
lo de confiança de 95% da diferença entre as médias das duas populações? 


5. Vocé vé a necessidade de tamanhos de amostra maiores e de mais testes com as bolas de golfe? 
Discuta. 


Estudo de Caso 2 - Wentworth Medical Center 


Como parte de um estudo de longo prazo de pessoas com idades a partir de 65 anos, sociólogos e médi- 
cos do Wentworth Medical Center, localizado na região norte de Nova York, investigaram a relação entre 
localização geográfica e depressão. Uma amostra de 60 pessoas, todas com saúde relativamente boa, foi 
selecionada; 20 indivíduos residiam na Flórida, 20 residiam em Nova York e 20 residiam na Carolina do 
Norte. Cada um dos indivíduos integrantes da amostra foi submetido a um exame padronizado para medir 
a depressão. Os dados coletados são apresentados a seguir; pontuações mais altas no exame indicam maio- 
res níveis de depressão. Esses dados estão disponíveis no arquivo intitulado Medicall no site. 

Uma segunda parte do estudo considerou a relação entre localização geográfica e depressão para pes- 
soas com idades a partir de 65 anos que apresentavam problemas crônicos de saúde, por exemplo, artrite, 
hipertensão e/ou moléstia cardíaca. Uma amostra de 60 pessoas com essas condições foi identificada. 
Novamente, 20 residiam na Flórida, 20 residiam em Nova York e 20 residiam na Carolina do Norte. Os 
níveis de depressão registrados nesse estudo são apresentados a seguir. Os dados estão disponíveis no site. 


Dados da Medical! Dados da Medical? 
` Carolina Carolina 
Flórida Nova York do Norte Flórida Nova York do Norte 
3 8 10 3 4 0 
7 11 7 2 9 2 
7 9 3 7 5 5 
3 7 5 7 2 8 
8 8 11 20 6 2 
8 7 8 21 24 4 
8 8 4 6 8 7 
5 4 3 4 4 8 
5 i3 7 3 5 4 
2 10 8 7 7 6 
6 6 8 2 20 8 
2 8 7 9 | 7 
6 12 3 2 23 9 
6 8 9 5 9 5 
9 6 8 6 7 3 
7 8 2 5 4 4 
5 5 6 3 9 | 
4 7 3 0 4 2 
7 7 8 I 3 3 
3 8 11 7 | | 


Relatório Administrativo 
1. Use estatística descritiva para sintetizar os dados dos dois estudos. Quais são suas observações pre- 
liminares a respeito das pontuações obtidas no exame relativo à depressão? 


2. Use a análise de variância em ambos os conjuntos de dados. Estabeleça as hipóteses a serem testa- 
das em cada caso. Quais são suas conclusões? 
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3. Use inferéncias a respeito das médias de tratamento individuais, quando for apropriado. Quais sáo 
suas conclusóes? 


4. Discuta possíveis extensões desse estudo ou outras análises que você acha que possam ser úteis. 


Estudo de Caso 3 - Remuneração de Profissionais de ID 


Durante os últimos dez anos, a Industrial Distribution acompanhou a remuneração recebida por profissio- 
nais da distribuição industrial (ID). Os resultados obtidos dos 358 entrevistados na Annual Salary Survey 
(Pesquisa Anual de Salários) de 1997 mostraram que 27% das pessoas trabalham em empresas com níveis 
de venda superiores a US$ 40 milhões, e o profissional de ID típico trabalha para empresas de US$ 12 
milhões. Aqueles que trabalham para empresas de pequeno a médio portes (entre US$ 6 e US$ 20 milhões) 
relatam salários mais elevados que aqueles que trabalham para empresas de maior porte. Os empregados 
que ganham menos trabalham para empresas com vendas inferiores a US$ 1 milhão. O vendedor externo 
típico ganhou US$ 50 mil em 1996 e o vendedor intemo típico ganhou apenas US$ 30 mil (Industrial 
Distribution, novembro de 1997). Suponha que uma associação local de profissionais de ID da região da 
Grande São Francisco tenha realizado uma pesquisa entre seus membros para estudar a relação, se houver, 
entre os anos de experiência profissional e os salários das pessoas que ocupam funções de vendas exter- 
nas e internas. Na pesquisa, os entrevistados foram solicitados a especificar um de três níveis de experiên- 
cia profissional: baixa (1 a 10 anos), média (11 a 20 anos) e elevada (21 anos ou mais). Apresentamos a 
seguir uma parte dos dados obtidos. O conjunto de dados (data set) completo, o qual consiste em 120 
observações, está disponível no arquivo intitulado IDSalary, no site. 


Observação Salário $ Função Experiência 

| 28.938 nterna Médio 

2 27.694 nterna Médio 

3 45.515 Externa Baixo 

4 27.031 nterna Médio 

5 37.283 Externa Baixo 

6 32.718 ntema Baixo 
7 54.081 Externa Elevado 

8 23.621 nterna Baixo 
9 47.835 Externa Elevado 
10 29.768 ntema Médio 
115 33.080 nterna Elevado 
116 53.702 Externa Médio 
17 58.131 Externa Médio 
118 32.788 nterna Elevado 
119 28.070 nterna Médio 
120 35.259 Externa Baixo 


Relatório Administrativo 


1. Use estatística descritiva para sintetizar os dados. 

2. Desenvolva uma estimação por intervalo de confiança de 95% do salário anual médio de todos os 
vendedores, independentemente dos anos de experiência profissional. 

3. Desenvolva uma estimação por intervalo de confiança de 95% da média salarial dos vendedores 
externos. Compare seus resultados com o valor nacional relatado pela Industrial Distribution. 

4. Desenvolva uma estimação por intervalo de confiança de 95% da média salarial dos vendedores 
internos. Compare seus resultados com o valor nacional relatado pela Industrial Distribution. 

5. Ignorando os anos de experiência, desenvolva uma estimação por intervalo de confiança de 95% da 
diferença média entre o salário anual dos vendedores externos e o salário anual médio dos vende- 
dores internos. Qual é a sua conclusão? 
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6. Use a análise de variância para testar se há diferenças significativas em conseqüéncia da função exer- 
cida. Use o nível de significância 0,05 e, por enquanto, ignore o efeito dos anos de experiência. 


7. Use a análise de variância para testar se há diferenças significativas em razão dos anos de experiên- 
cia. Use o nível de significância 0,05 e, por enquanto, ignore o efeito da função exercida, 


8. Com o nível de significância 0,05, teste se há diferenças significativas em decorrência da função 
exercida, dos anos de experiência e da interação. Use inferências sobre as médias de tratamento, 
quando apropriado. 


Apêndice 10.1 – Inferéncias sobre Duas Populações com o Minitab 


Descrevemos o uso do Minitab para desenvolver estimações por intervalo e realizar testes de hipóteses a 
respeito das diferenças entre duas médias populacionais e a diferença entre duas proporções populacio- 
nais. O Minitab fornece tanto os resultados de estimação por intervalo como de testes de hipóteses den- 
tro do mesmo módulo. Desse modo, o procedimento do Minitab é o mesmo para ambos os tipos de infe- 
rências. Nos exemplos que apresentamos a seguir demonstraremos a estimação por intervalo e o teste de 
hipóteses para os mesmos dois exemplos. Observamos que o Minitab não apresenta uma rotina para a 
realização de inferências sobre duas médias populacionais quando os desvios padrão populacionais o, е 
q, são conhecidos. 


Diferença entre Duas Médias Populacionais Quando O , e С; 
Sáo Desconhecidos 


Usaremos os dados do exemplo de saldos de conta corrente apresentados na Seção 10.2. Os saldos de conta 
corrente na filial de Cherry Grove estão na coluna C1 e os saldos de conta corrente da filial de Beechmont 
estão na coluna C2. Nesse exemplo, usaremos o procedimento 2-Sample t do Minitab para produzir uma 
estimação por intervalo de confiança de 95% da diferença entre as médias populacionais correspondentes 
aos saldos de contas correntes dos dois bancos filiais. A saída de dados (output) do procedimento também 
fornece o valor p do teste de hipóteses: Ho: и — 4; = O contra H4: ju — из + 0. As etapas a seguir são 
necessárias para se executar o procedimento: 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha a opção Basic Statistics 

Etapa3. Escolha a opção 2-Sample t 

Etapa 4. Quando a caixa de diálogo 2-Sample t (Test and Confidence Interval) aparecer: 
Selecione Samples in different columns 
Digite C1 na caixa First 
Digite C2 na caixa Second 
Selecione Options 

Etapa 5. Quando a caixa de diálogo 2-Sample t — Options aparecer: 
Digite 95 na caixa Confidence level 
Digite O na caixa Test difference 
Digite not qual (não igual) na caixa Alternative 
Dê um clique em OK 

Etapa 6. Рё um clique em OK 


A estimação por intervalo de confiança de 95% varia de US$ 37 a US$ 193, conforme descrevemos na 
Seção 10.2. O valor p = 0,005 mostra que a hipótese nula de médias populacionais iguais pode ser rejei- 
tada ao nível de significância а = 0,01. Em outras aplicações, a etapa 5 pode ser modificada para produ- 
zir diferentes níveis de confiança, diferentes valores hipotéticos e diferentes formas das hipóteses. 


Diferença entre Duas Médias Populacionais 
com Amostras Relacionadas (ou Dependentes) 


Usamos os dados dos tempos de produção apresentados na Tabela 10.2 para ilustrar o procedimento de 
amostras relacionadas. Os tempos de conclusão correspondentes ao método 1 foram introduzidos na colu- 
na C1 e os tempos de conclusão correspondentes ao método 2 foram introduzidos na coluna C2. As eta- 
pas do Minitab para as amostras relacionadas são as seguintes: 
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Etapal. Selecione o menu Stat 

Etapa 2. Escolha a opção Basic Statistics 

Etapa 3. Escolha a opção Paired t 

Etapa 4. Quando a caixa de diálogo Paired t (Test and Confidence Interval) aparecer: 
Selecione Samples in columns 
Digite C1 na caixa First sample 
Digite C2 na caixa Second sample 
Selecione Options 

Etapa 5. Quando a caixa de diálogo Paired t — Options aparecer: 
Digite 95 na caixa Confidence level 
Digite O na caixa Test mean 
Digite not equal (não igual) na caixa Alternative 
Dê um clique em OK 

Etapa 6. Рё um clique em OK 


A etapa 5 pode ser modificada para produzir diferentes níveis de confiança, diferentes valores hipotéticos 
e diferentes formas das hipóteses. 


Apéndice 10.2 – Inferências sobre Duas Populações com o Excel 


Descrevemos o uso do Excel para realizar testes de hipóteses a respeito da diferença entre duas médias 
populacionais.* Iniciamos com inferências a respeito da diferença entre a média de duas populações quan- 
do os desvios padrão populacionais, o, е 0; são conhecidos. 


Diferença entre Duas Médias Populacionais Quando 8 е O, São Conhecidos 


Usaremos as notas (pontuações) de exame referentes aos dois centros de ensino discutidas na Seção 10.1. 
O rótulo Centro A está na célula Al e o rótulo Centro B está na célula ВІ. As notas de exame correspon- 
dentes ao Centro A estão nas células A2:A31, e as notas de exame correspondentes ao Centro B estão nas 
células B2:B41. Presume-se que os desvios padrão populacionais sejam conhecidos, sendo q, = 10 e 
05 = 10. A rotina do Excel solicitará a entrada de variâncias, as quais são 7? = 100 e 02 = 100. As eta- 
pas seguintes podem ser usadas para realizar um teste de hipóteses sobre a diferença entre as duas médias 
populacionais. 


Etapa 1. Selecione o menu Ferramentas 

Etapa 2. Escolha a opção Análise de Dados 

Etapa 3. Quando a caixa de diálogo Análise de Dados aparecer: 
Escolha a opção Teste-z: Duas Amostras para Médias 
Dê um clique em OK 

Etapa 4. Quando a caixa de diálogo Teste-z: Duas Amostras para Médias aparecer: 
Digite A1:A31 na caixa Intervalo da variável 1 
Digite B1:B41 na caixa Intervalo da variável 2 
Digite O na caixa Hipótese de Diferença de Média 
Digite 100 na caixa Variância da variável 1 
Digite 100 na caixa Variância da variável 2 
Marque a opção Rótulos 
Digite 0,05 na caixa Alfa 
Selecione Intervalo de Saída e digite C1 na caixa 
Dê um clique em OK 


*As ferramentas de análise de dados do Excel oferecem procedimentos de teste de hipóteses para a diferença entre duas médias popu- 
lacionais. Entretanto, não há nenhuma rotina no Excel para estimação por intervalo da diferença entre duas médias populacionais. 
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Diferença entre Duas Médias Populacionais Quando O e 9; 
Sáo Desconhecidos 


Usamos os dados do estudo sobre testes de software apresentados na Tabela 10.1. Os dados já foram inse- 
ridos em uma planilha do Excel, com o rótulo Atual na célula-A1 e o rótulo Novo na célula ВІ. Os tem- 
pos de conclusão relativos ao uso da tecnologia atual estão nas células A2:A13 e os tempos de conclusão 
relativos ao uso do novo software estáo nas células B2:B13. As etapas a seguir podem ser usadas para se 
realizar um teste de hipóteses a respeito da diferença entre duas médias populacionais quando o уе 0, são 
desconhecidos. 


Etapa 1. Selecione o menu Ferramentas 
Etapa 2. Escolha a opção Análise de Dados 
Etapa 3. Quando a caixa de diálogo Análise de Dados aparecer: 
Escolha a opção Teste-t: Duas Amostras Presumindo Variâncias Diferentes 
Dê um clique em OK 
Etapa 4 Quando a caixa de diálogo Teste-t: Duas Amostras Presumindo Variâncias Diferentes 
aparecer: 
Digite A1:A13 na caixa Intervalo da variável 1 
Digite B1:B13 na caixa Intervalo da variável 2 
Digite O na caixa Hipótese de Diferença de Média 
Marque a opção Rótulos 
Digite 0,05 na caixa Alfa 
Selecione Intervalo de Saída e digite C1 na caixa 
Dê um clique em OK 


Diferenças entre Duas Médias Populacionais 
com Amostras Relacionadas (ou Dependentes) 


Usamos como ilustração os tempos de conclusão das amostras relacionadas da Tabela 10.2. Os dados 
foram introduzidos em uma planilha com o rótulo Método 1 na célula Al e o rótulo Método 2 na célula 
B1. Os tempos de conclusão correspondentes ao método 1 estão nas células A2:A7 e os tempos de con- 
clusão correspondentes ao método 2 estão nas células B2:B7. O procedimento do Excel utiliza as etapas 
descritas anteriormente com respeito ao Teste-t, excetuando-se que o usuário escolhe a ferramenta de aná- 
lise de dados Teste-t: Duas Amostras em Par para Médias na etapa 3. O intervalo da variável 1 é A1:A7 
eo intervalo da variável 2 é BI:B7. 


Apêndice 10.3 — Análise de Variância com o Minitab 


Para ilustrar como o Minitab pode ser usado para testar a igualdade de k médias populacionais, mostramos 
como testar se a média das notas obtidas no exame é idêntica em cada fábrica, no exemplo da National 
Computer Products apresentado na Seção 10.4. Os dados da média das notas obtidas no exame foram inse- 
ridos nas três primeiras colunas de uma planilha do Minitab; a coluna 1 está rotulada como Atlanta, a colu- 
na 2 está rotulada como Dallas e a coluna 3 está rotulada como Seattle. 

As etapas a seguir produzem a saída de dados do Minitab da Figura 10.6. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Escolha a opção ANOVA 

Etapa3. Escolha a opção One-way (Unstacked) 

Etapa 4. Quando a caixa de diálogo One-Way Analysis of variance aparecer: 
Digite C1-C3 na caixa Responses (in separate columns) 
Dê um clique em OK 


Apéndice 10.4 – Análise de Variância com o Excel 


Para ilustrar como o Excel pode ser usado para testar a igualdade de k médias populacionais correspon- 
dentes a ambos os casos, mostramos como testar se a média das notas obtidas no exame é idêntica em cada 
uma das fábricas, no exemplo da National Computer Products apresentado na Seção 10.4. Os dados sobre 
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as notas de exame foram inseridos nas linhas 2 a 7 das colunas B, C e D, como é exposto na Figura 10.7; 
note que as células da linha 1 têm os rótulos Atlanta, Dallas e Seattle. As etapas a seguir são usadas para 
se obter a saída de dados (output) mostrada nas células A9:G23; a parte ANOVA desta saída de dados cor- 
responde à tabela ANOVA mostrada na Tabela 10.5. 


Etapa 1. Selecione o menu Ferramentas 
Etapa 2. Escolha a opção Análise de Dados 


Figura 10.7 Solução do Excel para o exemplo de análise de variância da NCP 


ve ERU рр F a T Е 
1 Observação Atlanta | Dallas Seattle 
2 1 | 85 | 71 | 59 . 
3 2 [9375 *] 75 | е | |. 
4 3 | 82 73 62 
5 4 | 76 7A 69 
6 5 | 71 o 69 .| 75 
7 6 (8. В | 67. 
8: 
9 j Anova: Fator Unico 
10 | Ж БА bud = RB * " x ЫХ КА 
m 11 — 
12 Grupos — Média | Varióncia 
1з [АПаша & 5 gfe v 6| « 474] TF › $34 
20 
= 832] 
19 E Fonte de Variação ss af MS F P-value | Peri 
20 [Entre Grupos ^15 7:516] = * 2|] ^ 7258] ^ = 9] “00027 = 3,68 
21 | Dentro de Grupos 430 15| 28,6667 . . " 
22 NES Бн ES "n H 
‘Total ;. a 4946 171 А + EO 


Etapa 3. Quando a caixa de diálogo Análise de Dados aparecer: 
Escolha a opção Anova: Fator único na lista Ferramentas de Análise 
Dê um clique em OK 
Etapa 4. Quando a caixa de diálogo Anova: Fator Único aparecer: 
Digite B1:D7 na caixa Intervalo de Entrada 
Marque a opção Colunas 
Marque a opção Rótulos na primeira linha 
Marque a opção Intervalo de saída 
Dê um clique em OK 


CAPÍTULO II 


Comparações Envolvendo 
Proporções e Teste de 
Independência 


ESTATÍSTICA NA PRÁTICA 


UNITED WAY* 
Rochester, Nova York 


A United Way of Greater Rochester é uma organização sem fins lucrativos dedicada a melhorar a qualidade 
de vida das pessoas dos sete municípios aos quais serve, suprindo as necessidades mais importantes de assis- 
tência humana à comunidade. 

A campanha anual de arrecadação de fundos da United Way/Red Cross, realizada a cada primavera, finan- 
cia centenas de programas empreendidos por mais de 200 fornecedores de serviços. Esses fornecedores 
atendem a ampla variedade de necessidades humanas — físicas, intelectuais e sociais — e atendem a pessoas 
de todas as idades, origens e níveis econômicos. 

Graças ao enorme envolvimento de voluntários, a United Way of Greater Rochester é capaz de manter 
seus custos operacionais em apenas oito centavos de cada dólar arrecadado. 

A United Way of Great Rochester decidiu realizar uma pesquisa para conhecer melhor qual é a percep- 
ção que a comunidade tem de suas obras assistenciais, Entrevistas com grupos de foco (focus group) foram 


* Os autores agradecem ao Dr. Philip R. Tyler, Consultor de Marketing da United Way, por fornecer esta “Estatística na Prática”. 
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realizadas com profissionais, prestadores de serviços e trabalhadores em geral para obter informações prelimi- 
nares sobre a percepção das pessoas a respeito de seu trabalho. As informações obtidas foram então usadas 
para ajudar a desenvolver o questionário da pesquisa, O questionário foi testado previamente, modificado e dis- 
tribuído a 440 pessoas; 323 questionários preenchidos foram devolvidos. 

Uma série de estatísticas descritivas, incluindo distribuições de frequência e tabulações cruzadas, foi obtida 
dos dados coletados. Uma parte importante da análise envolveu o uso de tabelas de contingência e testes de 
independência quiquadrado. Uma função desses testes estatísticos era determinar se a percepção que as pes- 
soas tinham dos gastos administrativos independia da ocupação por elas exercida. 

As hipóteses do teste de independência eram: 


Ho: A percepção dos gastos administrativos da United Way independe da profissão do entrevistado. 
Нь: À percepção dos gastos administrativos da United depende da profissão do entrevistado. 


Duas perguntas da pesquisa forneceram os dados para o teste estatístico. Uma das perguntas obteve dados 
sobre a percepção que as pessoas tinham da porcentagem dos fundos arrecadados destinada a despesas admi- 
nistrativas (até 10%, de 11% a 20% e 21% ou mais). A outra questão perguntava a profissão do entrevistado. 

O teste do quiquadrado ao nível de significância de 0,05 levou à rejeição da hipótese nula de independên- 
cia e à conclusão de que a percepção que as pessoas tinham dos gastos administrativos da United Way variava 
de acordo com a profissão. As despesas administrativas reais eram inferiores a 9%, mas 35% dos entrevistados 
achavam que as despesas administrativas eram de 2.196 ou mais, Portanto, muitos tinham percepções equivo- 
cadas dos custos administrativos. Nesse grupo, empregados de linhas de produção, funcionários de escritórios, 
de equipes de vendas e da área técnica e profissional apresentaram percepções mais equivocadas que os dos 
demais grupos. 

O estudo da percepção existente entre a comunidade ajudou a United Way of Rochester a desenvolver 
ajustes ao seu programa e às suas atividades de arrecadação de fundos. Neste capítulo, você aprenderá como 
um teste estatístico de independência, similar ao que acabamos de descrever, é realizado. 


-Muitas aplicações estatísticas requerem uma comparação das proporções populacionais. Na Seção 11.1, 


descreveremos inferências estatísticas com respeito às diferenças entre as proporções de duas populações. 
Duas amostras são necessárias, sendo uma de cada população, e a inferência estatística baseia-se nas duas 
proporções amostrais. A segunda seção examina um teste de hipóteses que compara as proporções de uma 
única população multinomial com as proporções estabelecidas em uma hipótese nula. Uma amostra da 
população muitinomial é usada, e o teste de hipóteses baseia-se em comparar as proporções amostrais com 
as que foram estabelecidas na hipótese nula. Na última seção do capítulo, vamos mostrar como as tabelas 
de contingência podem ser usadas para testar a independência de duas variáveis. Uma amostra é usada para 
o teste de independência, mas medidas das duas variáveis são necessárias para cada elemento amostrado. 
Ambas as Seções 11.2 e 11.3 recorrem ao uso de um teste estatístico quiquadrado. 


11.1 INFERÊNCIAS SOBRE A DIFERENÇA ENTRE AS 
PROPORÇÕES DE DUAS POPULAÇÕES 


Admitindo que p; denota a proporção da população 1 e que p; denota a proporção da população 2, consi- 
deramos inferéncias sobre a diferença entre as proporções de duas populações: p, — pz. Para fazer uma 
inferência sobre essa diferença, selecionaremos duas amostras aleatórias que consistem em n, unidades da 
população 1 e n, unidades da população 2. 


Estimação por Intervalo de p, – p; 


No exemplo seguinte, mostramos como calcular uma margem de erro e desenvolver uma estimação por 
intervalo da diferença entre duas proporções populacionais. 

Uma firma especializada em declarações do imposto de renda está interessada em comparar a qualida- 
de do trabalho em dois de seus escritórios regionais, Ao selecionar aleatoriamente amostras de declarações 
do imposto de renda preenchidas em cada escritório e verificar a precisão amostral das declarações, a firma 
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será capaz de estimar a proporção das declarações preenchidas erroneamente em cada escritório. Interessa- 
lhes especialmente a diferença entre essas proporções. 


pi = proporção de declarações preenchidas erroneamente para a população 1 (escritório 1). 

p; = proporção de declarações preenchidas erroneamente para a população 2 (escritório 2). 
= proporção amostral de uma amostra aleatória simples extraída da população 1. 

Р» = proporção amostral de uma amostra aleatória simples extraída da população 2. 


A diferença entre as duas proporções amostrais é dada por р — pz. O estimador por ponto de p, — p; é 
o seguinte: 


ESTIMADOR POR PONTO DA DIFERENÇA ENTRE DUAS PROPORÇÕES POPULACIONAIS 
Pi — P (11.1) 


Desse modo, o estimador por ponto da diferença entre duas proporções populacionais é a diferença entre 
as proporções amostrais de duas amostras aleatórias simples independentes. 

À semelhança do que ocorre com outros estimadores por ponto, o estimador por ponto p; — p; tem uma 
distribuição amostral que reflete os valores possíveis de p, — p» se tomássemos, repetidamente, duas amos- 
tras aleatórias independentes. A média desta distribuição amostral é p, — p; e o епо padrão de p, — p, é o 
seguinte: 


pl-p), pp) 
Op = E VLP Ds 2 (11.2) 


Se os tamanhos de amostra forem suficientemente grandes a ponto de mp, m(l — ру), пр e nl — р) 
serem todos maiores ou iguais a 5, a distribuição amostral de p, — p» pode ser aproximada a uma distri- 
buição normal. 

Conforme mostramos anteriormente, uma estimação por intervalo é dada por uma estimação por ponto 
+ uma margem de erro. Na estimação da diferença entre duas proporções populacionais, uma estimação 
por intervalo assumirá a seguinte forma: 


Pi — p, + Margem de erro 


Com a distribuição amostral de p, — p» aproximada a uma distribuição normal, desejaríamos usar 2,2 
0j, p, como a margem de erro. Entretanto, 0 0; — +, dado pela Equação 11.2 não pode ser usado diretamen- 
te porque as duas proporções populacionais, Pi e pa são desconhecidas. Usando a proporção amostral p, 


para estimar p, e a proporção amostral p, para estimar p», a margem de erro é a seguinte: 


, Bb =P) | pk =D) (11.3) 


Margem de erro = 2. 
n n, 


A forma geral de uma estimação por intervalo entre duas proporções populacionais é a seguinte: 


ESTIMAÇÃO POR INTERVALO DA DIFERENÇA ENTRE DUAS PROPORÇÕES POPULACIONAIS 


pp) +20 =D) (11.4) 
n n3 


Pi Ë È Zan 


em que 1 — о. é o coeficiente de confiança. 


Retomando ao exemplo das declarações de imposto de renda, descobrimos que as amostras aleatórias 
simples independentes dos dois escritórios fornecem as seguintes informações: 


Escritório | Escritório 2 


пу = 250 п = 300 
Número de declarações com erros = 35 Número de declarações com erros = 27 
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As proporcóes amostrais correspondentes aos dois escritórios sáo as seguintes: 


2035. — 
B = 50 0,14 
202 
„= зу” 009 


A estimação por ponto da diferença entre as proporções de declarações erróneas do imposto de renda 
para as duas populações é p, — p; = 0,14 — 0,09 = 0,05. Desse modo, estimamos que o escritório 1 tem 
um índice de erro igual a 0,05, ou 5%, maior que a do escritório 2. 

A Equação 11.4 agora pode ser usada para fornecer uma margem de erro e a estimação por intervalo 
da diferença entre as duas proporções populacionais. Usando um intervalo de confiança de 90% com zap 
= Zoos = 1,645, obtemos: 


dh D+ Zap BA — р) + PRX — Р) 
n nj 


0,14(1 — 0,14) " 0,09(1 — 0,09) 
250 ` 300 


0,14 — 0,09 + TN 


0,05 + 0,045 


Assim, a margem de erro é 0,045, e o intervalo de confiança de 90% varia de 0,005 a 0,095. 


Testes de Hipóteses sobre p, - p; 


Consideremos agora os testes de hipóteses sobre a diferença entre as proporções de duas populações. 
Vamos nos concentrar em testes que não envolvem diferenças entre as duas proporções populacionais. 
Nesse caso, as três formas de teste de hipóteses são as seguintes: 


Нұр —-m20 Hğpı -p50 Нур—р,=0 
Нар = р < 0 Нұр р> 0 Нұр = р + 0 


Quando assumimos que H, é verdadeira enquanto igualdade, temos ру – рз = 0, que equivale a dizer que 
as proporções populacionais são iguais, ру = рз. 

Basearemos a estatística de teste na distribuição amostral do estimador por ponto р; — Рз. Na Equação 
11.2, mostramos que o erro padrão de p, — p; é dado por: 


= dp — р) | RA- рз) 
О-Б, 1 т 2 22 1; 2 


Sob a hipótese de que Ну é verdadeira enquanto igualdade, as proporções populacionais são iguais е 
ру — P2 = p. Nesse caso, оу, p, toma-se: 


1- 1- 1,1 
оь A z px = р) m plo " z) (1.5) 


Com р desconhecido, agrupamos, ou combinamos, os estimadores por ponto das duas amostras (р, e 
Do) para obtermos um único estimador por ponto de p da seguinte maneira: 


(11.6) 


Esse estimador agrupado (pooled estimator) de p é uma média ponderada de p, e р». 

Substituindo p por p na Equação 11.5, obtemos uma estimativa do erro padrão de p, — p». Essa esti- 
mativa do erro padrão é usada na estatística de teste. A forma geral da estatística de teste para testes de 
hipóteses sobre a diferença entre duas proporções populacionais é o estimador por ponto dividido pela esti- 


mativa de -Py 
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ESTÁTISTICA DE TESTE PARA TESTES DE HIPÓTESES SOBRE p; - p; 
(Р. ШИ EA] 


eb 
1 1 
va -ю{ +) 


Essa estatística de teste aplica-se a situações com grandes amostras, em que тр, (1 — ру), rop? e n; 
(1 — p») são todas maiores ou iguais a 5. 

Retornemos ao exemplo da firma especializada em declarações do imposto de renda e vamos supor que 
a firma queira usar um teste de hipóteses para determinar se as proporcóes de erro diferem entre os dois 
escritórios. Nesse caso, é necessário um teste bicaudal. As hipóteses nula e alternativa sáo as seguintes: 


(11.7) 


Hpi -pP =0 
Hip po 


Se Но for rejeitada, a firma poderá concluir que os índices de erro nos dois escritórios diferem. Usaremos 
a = 0,10 como nível de significância. 

Os dados amostrais coletados anteriormente mostraram que р; = 0,14 para as n, = 250 declarações 
amostradas no escritório 1 e p, = 0,09 para as n; = 300 declarações amostradas no escritório 2. 
Prosseguimos os cálculos da estimativa agrupada de p: 


шр + nob, _ 25000,14) + 300(0,09) 
ntn, 250 + 300 


0,1127 


Usando essa estimativa agrupada e a diferença entre as proporções amostrais, o valor da estatística de teste 
é o seguinte: 


(р, - Р) (0,14 — 0,09) 


1 1 1 1 
а — 01— + — 0,1 -0, = + 
ya pla 5) | ,1127(1— 0. uz 250 ux) 


z 1,85 


Ao calcularmos o valor p para esse teste bicaudal, observamos primeiramente que z = 1,85 na cauda 
superior da distribuição normal padrão. Usando z = 1,85 e a tabela de distribuição normal padrão, desco- 
brimos que a área na cauda superior é 0,5000 — 0,4678 = 0,0322. Duplicando essa área para um teste 
bicaudal, encontramos o valor p = 2(0,0322) = 0,0644. Com o valor p menor que а = 0,10, Но é rejeita- 
da ao nível de significáncia 0,10. A firma pode concluir que os índices de erro diferem entre os dois escri- 
tórios. Essa conclusão do teste de hipóteses é coerente com os resultados anteriores de estimação por inter- 
valo que mostraram que a estimação por intervalo da diferença entre os índices de erro populacionais nos 
dois escritórios variam de 0,005 a 0,095, sendo que o escritório 1 apresenta o maior índice de erros. 


Exercícios 
Métodos 
1. Considere os seguintes resultados de amostras independentes tomadas de duas populações: 
Amostra | Amostra 2 
n, = 400 n; = 300 
pi = 0,48 Р = 0,36 


a. Qual é a estimação por ponto da diferença entre as duas proporções populacionais? 

b. Desenvolva um intervalo de confiança de 90% para a diferença entre as duas proporções popula- 
cionais. ` 

c. Desenvolva um intervalo de confiança de 95% para a diferença entre as duas proporções popula- 
cionais. 
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2. Considere o teste de hipóteses: 


Нуру – р = 0 
Нұр р> 0 
Os resultados a seguir referem-se a amostras independentes tomadas de duas populações: 


Amostra | Amostra 2 
n 7200 > n, = 300 
Бу = 0,22 P = 0,16 


a. Qual é o valor p? : 
b. Com a — 0,05, qual é a conclusáo do seu teste de bipóteses? 


Aplicações 


3. 


Uma pesquisa realizada pela Business Week/Harris perguntou a altos executivos de grandes corpora- 
ções quais eram suas opiniões a respeito do panorama econômico para o futuro. Uma das perguntas 
foi a seguinte: “Você acha que haverá um aumento no número de empregados em tempo integral em 
sua empresa nos próximos 12 meses?” Na pesquisa atual, 220 de 400 executivos responderam sim, 
ao passo que, na pesquisa realizada no ano anterior, 192 de 400 executivos responderam sim. Forneça 
uma estimação por intervalo de confiança de 95% da diferença entre as proporções nos dois períodos. 
Qual é a sua interpretação da estimação por intervalo? 


Nos últimos anos, o número de pessoas que usam a internet para obter notícias políticas aumentou. 
Frequentemente, os sites da Web de partidos políticos pedem aos internautas para registrarem suas 
opinióes em pesquisas on-line. O Pew Research Center realizou uma pesquisa própria para saber qual 
era a participacáo de republicanos e democratas nas pesquisas on-line (Associated Press, 6 de janei- 
ro de 2003). Aplicam-se os seguintes dados amostrais. 


Partido Político Tamanho da Amostra Participam de Pesquisas On-Line 


Republicano 250 115 
Democrata 350 98 


a. Calcule a estimação por ponto da proporção de republicanos que indicam que participariam de pes- 
quisas on-line. Calcule a estimação por ponto relativa aos democratas. 

b. Qual é a estimação por ponto da diferença entre as duas proporções populacionais? 

€. Com 95% de confiança, qual é a margem de erro? . 

d. Representantes das instituições de pesquisa científica afirmam que a profusão de pesquisas on-line 
pode confundir as pessoas a respeito da opinião pública real. Você concorda com essa afirmação? 
Use uma estimação por intervalo de confiança de 95% da diferença entre as proporções populacio- 
nais de republicanos e democratas para ajudar a justificar sua resposta. . 

Os caça-níqueis são o jogo predileto nos cassinos de todo o território nacional nos Estados Unidos 

(Harrah's Survey 2002: Profile of the American Gamble). Os seguintes dados amostrais exibem o 

número de mulheres e de homens que escolheram os caça-níqueis como o jogo favorito. 


Mulheres И Homens 


Tamanho da amostra 320 250 
Jogo favorito: caga-níqueis 256 165 


a, Qual é a estimação por ponto da proporção de mulheres que dizem que os caça-níqueis são seu jogo 
favorito? 

b. Qual é a estimação por ponto da proporção de homens que dizem que os caça-níqueis são seu jogo 
favorito? 

c. Forneça uma estimação por intervalo de confiança de 95% da diferença entre a proporção de 
mulheres e da proporção de homens que dizem que os caça-níqueis são o jogo favorito. 


O Bureau of Transportation faz um acompanhamento do desempenho das dez maiores empresas 
aéreas dos Estados Unidos quanto aos horários de chegada de seus vôos (The Wall Street Journal, 4 
de março de 2003). Os vôos que chegam em um intervalo de 15 minutos do horário programado são 
considerados pontuais. Usando dados amostrais coerentes com as estatísticas do Bureau of 
Transportation publicadas em janeiro de 2001 e em janeiro de 2002, considere o seguinte: 
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Janeiro de 2001 Uma amostra de 924 vôos apresentou 742 que chegaram no horário. 
Janeiro de 2002 Uma amostra de 841 vôos apresentou 714 que chegaram no horário. 


a. Qual é a estimação por ponto dos vôos que chegaram no horário em janeiro de 2001? 

b. Qual é a estimação por ponto dos vôos que chegaram no horário em janeiro de 2002? 

c. Digamos que p, denote a proporção populacional dos vôos que chegaram no horário em janeiro de 
2001 e que p; denote a proporção populacional dos vôos que chegaram no horário em janeiro de 2002. 


Estabeleça as hipóteses que poderiam ser testadas para determinar se as principais empresas aéreas 


melhoraram seu desempenho quanto à chegada de vôos durante o período de um ano. 
d. Qual é o valor p? Com a = 0,05, qual é a sua conclusão? 
Em um teste da qualidade de dois comerciais de televisão, cada comercial foi exibido seis vezes em 
regiões de teste distintas durante o período de uma semana. Uma semana depois, foi realizada uma pes- 
quisa telefônica para identificar as pessoas que assistiram aos comerciais, Essas pessoas foram solicita- 
das a dizer qual foi a mensagem principal dos comerciais. Foram registrados os seguintes resultados: 


Comercial A Comercial B 


Número de Pessoas que Assistiram ao Comercial 150 200 
Número de Pessoas que se Lembravam da Mensagem 63 60 


a. Use æ = 0,05 e teste a hipótese de não haver nenhuma diferença nas proporções de lembrança refe- 
rentes aos dois comerciais. 

b. Calcule um intervalo de confiança de 95% para a diferença entre as proporções de lembrança para 
as duas populações. 


Durante o Super Bowl de 2003, o comercial da Miller Lite Beer, chamado “The Miller Lite Girls”, 
classificou-se entre os três anúncios mais eficazes veiculados durante o Super Bowl (USA Today, 29 
de dezembro de 2003). A avaliação da eficácia publicitária, realizada pela pesquisa Ad Track do jor- 
nal USA Today, divulgou amostras separadas de acordo com a faixa etária dos entrevistados para 
saber como os anúncios veiculados durante o Super Bowl chamavam a atenção dos diferentes grupos 
etários. Os dados amostrais seguintes aplicam-se ao comercial “The Miller Lite Girls”. 


Faixa etária Tamanho da amostra Gostaram muito do anúncio 


Menos de 30 anos 100 49 
De 30 a 49 anos 150 54 


10. 


a. Formule um teste de hipóteses que possa ser usado para determinar se há uma diferença entre as 
proporções populacionais correspondentes aos dois grupos etários. 

b. Qual é a estimação por ponto da diferença entre as duas proporções populacionais? 

c. Realize um teste de hipóteses e relate o valor p. Com a = 0,05, qual é a sua conclusão? 

d. Discuta o atrativo dos anúncios para os grupos etários dos mais jovens e dos mais velhos. A orga- 
nização Miller Lite consideraria encorajadores os resuitados obtidos pela pesquisa Ad Track do jor- 
nal USA Today? Explique. 


Uma pesquisa de opinião do New York Times/CBS News realizada em 2003 tomou como amostra 523 
adultos que planejavam férias para os próximos seis meses e descobriu que 141 esperavam viajar de 
avião (New York Times News Service, 2 de março de 2003). Uma pesquisa idêntica realizada em maio 
de 1993 pelo New York Times/CBS descobriu que dos 477 adultos que Planejavam férias para os pró- 
ximos seis meses, 81 esperavam viajar de avião. 


a. Estabeleça a hipótese que pode ser usada para determinar se ocorreu uma mudança significativa na 
proporção da população que planeja viajar de avião no período de dez anos. 

b. Qual é a proporção amostral que espera viajar de avião em 2003? E em 1993? 

c. Use a = 0,01 e teste se há alguma diferença significativa. Qual é a sua conclusão? 

d. Discuta as razões que poderiam fornecer uma explicação para essa conclusão. 


A revista Yahoo! Internet Life patrocinou pesquisas em diversas regiões metropolitanas para estimar 
a proporção de adultos que usam a internet no trabalho (USA Today, 7 de maio de 2000). Os resulta- 
dos revelaram que 40% dos adultos que moram em Washington, D.C., usam a internet no trabalho, 
enquanto 32% dos adultos de S&o Francisco изат a internet no trabalho. Se os tamanhos de amostra 
são 240 e 250, respectivamente, os resultados amostrais indicam que a proporção populacional de 
adultos que usam a internet no trabalho em Washington, D.C., é maior que a proporção populacional 
de São Francisco? Qual é o valor p? Usando а = 0,05, qual é a conclusão? 
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11.2 TESTES DE HIPÓTESES PARA PROPORÇÕES 
DE UMA POPULAÇÃO MULTINOMIAL 


Nesta seção, consideraremos os testes de hipóteses referentes à proporção de elementos de uma população 
pertencentes a cada uma das várias classes ou categorias. Diferentemente da seção anterior, lidaremos com 
uma única população: uma população multinomial. Os parâmetros da população multinomial são a propor- 
ção de elementos pertencentes a cáda categoria; o teste de hipóteses que descrevemos refere-se ao valor des- 
ses parâmetros. A distribuição multinomial de probabilidade pode ser imaginada como uma extensão da dis- 
tribuição binomial para o caso de três ou mais categorias de resultados. Em cada ensaio-de um experimento 
multinomial, ocorre um e somente um dos resultados. Presume-se que cada ensaio do experimento seja- inde- 
pendente, e as probabilidades dos resultados permanecem as mesmas para cada ensaio. 

Como exemplo, considere o estudo sobre participação no mercado realizado pela Scott Marketing 
Research. Durante o ano passado a participação no mercado permaneceu em 30% para a empresa A, 50% 
para a empresa B e 20% para a empresa C. Recentemente, a empresa C desenvolveu um “novo e melho- 
rado" produto para substituir seu atual lançamento no mercado. A empresa C assinou um contrato de con- 
sultoria com a Scott Marketing Research para determinar se o novo produto alterará as fatias de mercado. 

Nesse caso, a população de interesse é uma população multinomial; cada cliente é classificado como 
alguém que compra da empresa A, B ou C. Dessa forma, temos uma população multinomial com três 
resultados. Vamos usar a seguinte notação para as proporções: 


рд = fatia de mercado da empresa A 
Pp = fatia de mercado da empresa B 
Рс = fatia de mercado da empresa С 


A Scott Marketing Research realizará uma pesquisa amostral e calculará a proporção dos que preferem 
o produto de cada uma das empresas. Um teste de hipóteses será realizado então para verificar se o novo 
produto causou alguma alteração nas fatias de mercado. Supondo que o novo produto da empresa C não 
altere as fatias de mercado, as hipóteses nula e alternativa são estabelecidas da seguinte maneira: 


Ho: pa = 0,30, pp = 0,50 ерс = 0,20 
Ho: As proporções populacionais não são 
pa = 0,30, рв = 0,50 e pç = 0,20 


Se os resultados amostrais levarem à rejeição de Ho, a Scott Marketing Research terá evidências de que a 
introdução do novo produto afeta as participações no mercado. 

Vamos supor que a firma de pesquisa de mercado tenha usado no estudo um painel de consumo com- 
posto de 200 consumidores. Cada indivíduo foi solicitado a especificar uma preferência de compra entre 
as trés alternativas: o produto da empresa A, o produto da empresa B e o novo produto da empresa C. As 
200 respostas estão resumidas a seguir: 


Freqüéncia Observada 
Produto da Empresa A Produto da Empresa B Novo Produto da Empresa C 
48 À 98 54 


Agora, podemos executar um teste da eficiéncia de ajuste, o qual determinará se a amostra das pre- 
feréncias de compra da parte de 200 consumidores é coerente com a hipótese nula. O teste de eficiéncia 
de ajuste baseia-se em uma comparacáo da amostra de resultados observados com os resultados espera- 
dos sob a suposição de que a hipótese nula é verdadeira. Portanto, o passo seguinte é calcular as preferén- 
cias de compra esperadas dos 200 clientes sob a suposição de que pa = 0,30, рв = 0,50 e pc = 0,20. Essa 
operação produz os resultados esperados. 


Freqüéncia Esperada 
Produto da Empresa A Produto da Empresa B Novo Produto da Empresa C 
200.30) = 60 А 20000,50) = 100 2000,20) = 40 
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Assim, notamos que a freqüéncia esperada correspondente a cada categoria é encontrada multiplicando-se 
o tamanho da amostra, 200, pela proporção hipotética da categoria. 

O teste de eficiência de ajuste agora se concentra nas diferenças entre as freqüéncias observadas e as 
freqiiências esperadas. Diferenças grandes entre as freqüéncias observadas e as freqiiências esperadas sus- 
citam dúvidas sobre a suposição de que as proporções hipotéticas ou fatias de mercado estejam corretas. 
A questão referente a se as diferenças entre as frequências observadas e esperadas são “grandes” ou 
“pequenas” é respondida com a ajuda da seguinte estatística de teste. 


ESTATÍSTICA DE TESTE PARA A EFICIÊNCIA DE AJUSTE 
k е, 2 
= У = д (11.8) 
i=1 


i 
em que 


fi = freqüéncia observada para a categoria i 
e; = fregiiência esperada para a categoria i 
k = o número de categorias 


Observação: A estatística de teste tem uma distribuição quiquadrado com k — 1 graus de liberdade, 
desde que as frequências esperadas sejam 5 ou mais para todas as categorias. 


Continuemos com o exemplo da Scott Marketing Research, no qual utilizaremos os dados amostrais para 
testar a hipótese de que a população multinomial mantém as proporções Рд = 0,30, Рр = 0,50 e Pç = 0,20. 
Usaremos um nível de significância a = 0,05. Prosseguimos, usando as fregiiências observadas e espera- 
das para calcular o valor da estatística de teste. Sendo 5 ou mais todas as frequências esperadas, o cálcu- 
lo da estatística de teste quiquadrado é apresentado na Tabela 11.1, Desse modo, temos y? = 7,34. 

Rejeitaremos a hipótese nula se as diferenças entre as frequências observadas e esperadas forem gran- 
des. Diferenças grandes entre as freqüéncias observadas e esperadas resultaráo em um valor grande para a 
estatística de teste. Assim, o teste de eficiência de ajuste sempre será um teste da cauda superior. Usaremos 
a área da cauda superior de uma distribuição quiquadrado e o critério do valor p para determinar se a hipó- 
tese nula pode ser rejeitada. Com k — 1 = 3 — 1 = 2 graus de liberdade, a Tabela 11.2 exibe as seguintes 
áreas na cauda superior e seus valores quiquadrado (y?) correspondentes: 


Área na Cauda Superior | 0,10 0,05 0,025 0,01 
Valor y? (2 gl) | 4,605 5,991 À 7,378 9,210 
x2=734 


A estatística de teste y? = 7,34 está entre 5,991 e 7,378. Desse modo, a área da cauda superior, ou valor 
р, correspondente, deve estar entre 0,05 e 0,025. Com o valor p = а = 0,05, rejeitamos Но e concluímos 
que a introdução no mercado do novo produto da empresa C alterará a atual estrutura de participação no 
mercado. O Minitab ou o Excel podem ser usados para demonstrar que y? = 7,34 produz um valor 
р = 0,0255. 


Tabela 11.1 Cálculo da estatística de teste quiquadrado para o estudo de participação no mercado realizado 
pela Scott Marketing Research 


Quadrado 
Dividido pela 

Freqüéncia Fregiência Quadrado Frequência 

Proporção Observada Esperada Diferença da Diferença — Esperada 

Categoria ^ Hipotética () (е) (i-e) f- e)? (f; - efe; 
Empresa А 0,30 48 60 -12 144 2,40 
Empresa B 0,50 98 100 -2 4 0,04 
Empresa C 0,20 _54 40 14 196 4,90 


Total 200 х2 = 7,34 
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Tabela 11.2 Valores selecionados da tabela de distribuição quiquadrado* 


Graus de 
Liberdade 


80 
100 


Área ou 
probabilidade 


0,99 


0,000 
0,020 
0,115 
0,297 


0,554 
0,872 
1,239 
1,647 
2,088 


2,558 
3,053 
3,57] 
4,107 
4,660 


5,229 
5,812 
6,408 
7,015 
7,633 


8,260 
8,897 
9,542 
10,196 
10,856 


11,524 
12,198 
12,878 
13,565 
14,256 


[4,953 
22,164 
37,485 
53,540 
70,065 


0,975 


2 


4 


0,001 
0,051 
0,216 
0,484 


0,83] 
1,237 
1,690 
2,180 
2,700 


3,247 
3,816 
4,404 
5,009 
5,629 


6,262 
6,908 
7,564 
8,231 
8,907 


9,591 
0,283 
0,982 
1,689 
2,401 


3,120 
3,844 
4,573 
5,308 
6,047 


6,791 
4,433 
0,482 


57,153 
74222 


*Nota: A Tabela 3 do Apéndice B é a mais completa. 


0,95 

0,004 
0,103 
0,352 
0,711 


1,145 
1,635 
2,167 
2,733 
3,325 


3,940 
4,575 
5,226 
5,892 
6,571 


7 7,26] 


7,962 
8,672 
9,390 
0,117 


0,851 
1,59] 
2,338 
3,091 
3,848 


4611 
5,379 
6,151 
6,928 
7,708 


8,493 
26,509 
43,188 
60,391 
77,929 


Área da Cauda Superior 


0,90 
0,016 
0211 
0,584 
1,064 


1,610 
2,204 
2.833 
3,490 
4,168 


4,865 
5,578 
6,304 
7,041 
7,790 


8,547 - 


9,312 
0,085 
0,865 
1,651 


2,443 
3,240 
4,041 
4,848 
5,659 


6,473 
7,292 
8,114 
8,939 
9,768 


20,599 
29,051 
46,459 
64,278 
82,358 


0,10 
2,706 
4,605 
6,251 
7,779 


9,236 
10,645 
12,017 
13,362 
14,684 


15,987 
17,275 
18,549 
19,812 
21,064 


22,307 
23,542 
24,769 
25,989 
27,204 


28,412 
29,615 
30,813 
32,007 
33,196 


34,382 
35,563 
36,741 
37,916 
39,087 


40,256 
51,805 
74,397 
96,578 
118,498 


0,05 
3,841 
5,991 
7,815 
9,488 


11,070 
12,592 
14,067 
15,507 
16,919 


18,307 
19,675 
21,026 
22,362 
23,685 


24,996 
26,296 
27,587 
28,869 
30,144 


31,410 
32,671 
33,924 
35,172 
36,415 


37,652 
38,885 
40,113 
41,337 
42,557 


43,773 
55,758 
79,082 
101,879 
124,342 


0,025 


5,024 
7,378 
9,348 
11,143 


12,832 
14,449 
16,013 
17,535 
19,023 


20,483 
21,920 
23,337 
24,736 
26,119 


27,488 
28,845 
30,191 
31,526 
32,852 


34,170 
35,479 
36,781 
38,076 
39,364 


40,646 
41,923 
43,195 
44,461 
45,722 


46,979 
59,342 
83,298 
106,629 
129,561 


0,01 
6,635 
9210 

11,345 

13277 


15,086 
16,812 
18,475 
20,090 
21,666 


23,209 
2425 
26,217 
27,688 
29,141 


30,578 
32,000 
33,409 
34,805 
36,191 


37,566 
38,932 
40,289 
41,638 
42,980 


44314 
45,642 
46,963 
48,278 
49,588 


50,892 
63.691 
88,379 
112,329 
135,807 


Em vez de usar o valor p, poderíamos utilizar o critério do valor crítico para chegar 
são. Com a = 0,05 e 2 graus de liberdade, o valor crítico da estatística de teste é x 


de rejeição para a cauda superior torna-se 


Rejeitar Ho se x? = 5,991 


2 
0,05 


à mesma conclu- 
= 5,991. A regra 
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Com 7,34 > 5,991, rejeitamos Ho. O critério do valor p e o critério do valor crítico fornecem a mesma 
conclusão de teste de hipóteses. 

Embora os resultados do teste não nos permitam tirar conclusões adicionais, podemos comparar infor- 
malmente as freqüéncias observadas e esperadas para obtermos uma idéia de como a estrutura de partici- 
pação no mercado pode se alterar. Considerando a empresa C, descobrimos que a frequência observada, 
54, é maior que a freqüéncia esperada, 40. Visto que a freqüéncia esperada se baseou nas fatias de merca- 
do atuais, a maior frequência observada sugere que o novo produto terá um efeito positivo sobre a fatia de 
mercado da empresa C. Comparações entre as freqüéncias observada e esperada correspondentes às duas 
outras empresas indicam que o ganho de participação no mercado por parte da empresa C será mais pre- 
judicial à empresa A do que à empresa B. 

Vamos resumir as etapas gerais que podem ser usadas para se realizar um teste de eficiéncia de ajuste 
para uma distribuição populacional multinomial hipotética. 


TESTE DE EFICIÊNCIA DE AJUSTE DA DISTRIBUIÇÃO MULTINOMIAL: RESUMO 
1. Estabeleça as hipóteses nula e alternativa. 


Ну: A população segue uma distribuição multinomial com probabilidades 
específicas para cada uma das k categorias. 

H,: A população não segue uma distribuição multinomial com as probabilidades 
especificadas para cada uma das К categorias. 


2. Selecione uma amostra aleatória e registre as frequências observadas f; para cada categoria. 

3. Suponha que a hipótese nula seja verdadeira e determine a frequência esperada e; em cada catego- 
ria multiplicando a probabilidade da categoria pelo tamanho da amostra. 

4. Calcule o valor da estatística de teste 


кер оу 
“=> 2 


5. Regra de rejeicáo: 
Critério do valor p: Rejeitar Не se o valor p = a 
Critério do valor crítico: Rejeitar Но se y? = x2 


em que q é o nível de significância do teste e há k – 1 graus de liberdade. 


Exercícios 


Métodos 


11. Teste as seguintes hipóteses usando o teste de eficiência de ajuste y 2. 
Ho: pa = 0,40, pg = 0,40 e pc = 0,20 
Нұ As proporções populacionais não são 
pa = 040, рв = 0,40 e pc = 0,20 


Uma amostra de tamanho 200 produziu 60 na categoria A, 120 na categoria B e 20 na categoria C. 
Use а = 0,01 e teste se as proporções estão em conformidade сот o que foi declarado em Ho. 


a. Use o critério do valor p. 
b. Repita o teste usando o critério do valor crítico. 


12. Suponha que temos uma população multinomial com quatro categorias A, B, C e D. A hipótese nula 
é que a proporção de itens é a mesma em cada categoria. A hipótese nula é: 
Ho рд = рв = рс = рр = 0,25 
Um tamanho де amostra 300 produziu os seguintes resultados: 
А: 85 В: 95 C: 50 D: 70 
Use а = 0,05 para determinar se Ho deve ser rejeitada. Qual é o valor p? 
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Aplicações 


13. 


14, 


Durante as 13 primeiras semanas de uma nova série de televisão norte-americana, as proporções de 
público nos sábados à noite no horário das 8 às 9h foram registradas como 29% para a ABC, 28% 
para a CBS, 25% para a NBC e 18% para as emissoras independentes. Duas semanas depois de uma 
revisão da programação de sábado à noite, uma amostra de 300 residências produziu os seguintes 
dados de audiência: 95 sintonizavam a ABC; 70, a CBS; 89, a NBC; e 46, as emissoras independen- 
tes. Teste com а = 0,05 para determinar se as proporções de público se alteraram. 

А M&M/MARS, fabricantes dos M&MÊ Chocolate Candies (Confeitos de Chocolate M&M), reali- 
zou uma pesquisa nacional na qual os consumidores indicaram quais eram suas cores preferidas. Na 
brochura intitulada “Colors” que a M&M/MARS Consumer Affairs colocou à disposição, a distribui- 
ção tradicional de cores para os confeitos de chocolate é a seguinte: 


Marrom Amarelo Vermelho Laranja Verde Azul 


3096 2096 2096 1096 1096 1096 


Em um estudo de acompanhamento, pacotes de 453 g foram utilizados para determinar se as porcen- 
tagens registradas eram válidas. Os resultados seguintes foram obtidos para uma amostra de 506 con- 
feitos de chocolate. E 


Marrom Amarelo Vermelho Laranja Verde Azul 
177 135 79 4l 36 38 


15. 


Use а = 0,05 para determinar se esses dados confirmam as porcentagens divulgadas pela empresa. 


Onde as mulheres compram roupas para o dia-a-dia mais freqüentemente? Dados do U.S. Shopper 
Database forneceram as seguintes porcentagens relativas às compras feitas por mulheres em cada uma 
das várias lojas (The Wall Street Journal, 28 de janeiro de 2003). 


Loja Porcentagem Loja Porcentagem 
Wal-Mart 24% Kohl's 896 
Lojas de departamento tradicionais !1% Encomenda postal 1296 
J-C. Penney 8% Outros 37% 


16. 


A outra categoria incluía lojas como a Target, a Kmart e a Sears, além de inúmeras lojas menores de 
produtos especiais. Nenhuma loja individual desse grupo envolvia mais de 5% das compradoras. Uma 
pesquisa recente usando uma amostra de 140 compradoras de Atlanta, Geórgia, revelou que 42 com- 
pravam no Wal-Mart; 20, em lojas de departamento tradicionais; 8, na J.C. Penney; 10, na Kohl's; 21, 
em lojas de encomenda postal, e 39, de outras fontes. Essa amostra sugere que as compradoras resi- 
dentes em Atlanta diferem quanto às preferências de compra expressas no U.S. Shopper Database? 
Qual é o valor p? Use a = 0,05. Qual é a sua conclusão? 

A American Bankers Association coleta dados sobre o uso de cartões de crédito, cartões de débito, 
cheques pessoais e dinheiro vivo quando os consumidores pagam suas compras em lojas (The Wall 
Street Journal, 16 de dezembro de 2003). Em 1999, foram registrados os seguintes métodos de 
pagamento: 


Compras na Loja Porcentagem 
Cartão de crédito 22% 
Cartão de débito 21% 
Cheque pessoal 18% 
Dinheiro 39% 


Uma amostra tomada em 2003 revelou que das 220 compras feitas em lojas, 46 usaram cartões de 

crédito; 67, cartões de débito; 33, cheques pessoais; e 74, dinheiro. 

a. Com a = 0,01, podemos concluir que ocorreu uma alteração na maneira pela qual os clientes paga- 
vam as contas nas lojas no decorrer do período de quatro anos, de 1999 a 2003? Qual é o valor p? 

b. Calcule a porcentagem de uso de cada método de pagamento usando os dados amostrais de 2003. 
Qual parece ter sido a maior mudança ou mudanças ao longo do período de quatro anos? 

c. Em 2003, qual porcentagem de pagamentos foi feita com “dinheiro de plástico” (cartões de crédi- 
to ou cartões de débito)? 
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17. O Shareholder Scoreboard do The Wall Street Journal acompanha o desempenho de mil grandes 
empresas norte-americanas (The Wall Street Journal, 10 de margo de 2003). O desempenho de cada 
empresa é classificado em função do retorno anual total, incluindo as variações nos preços das ações 
e no reinvestimento de dividendos. As classificações são atribuídas dividindo-se todas as mil empre- 
sas em grupos A (as 20% maiores), B (as 20% médias) a E (as 20% de nível mais baixo). 
Apresentamos a seguir as classificações no período de um ano correspondentes a uma amostra de 60 
das maiores empresas. As maiores empresas diferem quanto ao desempenho das mil empresas inte- 
grantes do Shareholder Scoreboard? Use a = 0,05. 


A B c D E 
5 8 15 20 12 


18. Qual é a qualidades do serviço que as empresas aéreas prestam aos seus clientes? Um estudo revelou 
as seguintes avaliações dos clientes: 3% o consideraram excelente, 28% bom, 45% razoável e 24% 
ruim (Business Week, 11 de setembro de 2000). Em um estudo de acompanhamento dos serviços pres- 
tados pelas empresas, feito por telefone, suponha que uma amostra de 400 adultos tenha revelado as 
seguintes avaliações dos clientes: 24 consideraram o serviço excelente, 124 bom, 172 razoável e 80 
ruim. À distribuição das avaliações dos clientes feitas por telefone a respeito das empresas é diferen- 
te da distribuição de avaliações dos clientes para as empresas aéreas? Teste com а = 0,01. Qual é a 
sua conclusão? 


11.3 TESTE DE INDEPENDÊNCIA 


Outra aplicação importante da distribuição quiquadrado envolve usar os dados amostrais para testar a inde- 
pendência de duas variáveis. Vamos ilustrar o teste de independência considerando o estudo realizado pela 
Alber's Brewery of Tucson, no Arizona. A Alber's produz e distribui três tipos de cerveja: light, comum e 
escura. 


Tabela 11.3 Tabela de contingência referente à preferência por um tipo de cerveja e ao sexo do consumidor 


Cerveja preferida 
Light Comum Escura 


Masculino célula(l,1)  célula(t,2)  célula(1,3) 


Sexo Feminino célula.) ^ célua(22)  célula(2,3) 


Em uma análise dos segmentos de mercado das três cervejas, a equipe de pesquisa de mercado da 
empresa levantou a seguinte questão: As preferências pelos três tipos de cerveja diferem entre os consu- 
midores masculinos e femininos? Se a preferência pela cerveja independer do sexo do consumidor, será 
iniciada uma campanha publicitária dirigida a todos os consumidores de cerveja. Entretanto, se a preferên- 
cia pelo tipo de cerveja depender do sexo do consumidor, a empresa modelará suas campanhas de acordo 
com os diferentes mercados-alvo. 

Um teste de independência trata da questão referente a se a preferência pelo tipo de cerveja (light, 
comum ou escura) independe do sexo do consumidor de cerveja (masculino ou feminino). As hipóteses 
para esse teste de independência são: 


Ho: A preferência pelo tipo de cerveja independe do sexo do consumidor 
H; А preferência pelo tipo de cerveja depende do sexo do consumidor 


A Tabela 11.3 pode ser usada para descrever a situação que está sendo estudada. Após a identificação 
da população como totalmente composta de homens e mulheres consumidores de cerveja, uma amostra 
pode ser selecionada e cada indivíduo é solicitado a declarar sua predileção por um dos tipos de cerveja 
da Alber's. Cada indivíduo da amostra será classificado em uma das seis células da tabela. Por exemplo, 
um indivíduo pode ser um homem que prefere a cerveja comum (célula (1,2)), uma mulher que prefere a 
cerveja light (célula (2,1)), uma mulher que prefere uma cerveja escura (célula (2,3)) e assim por diante. 
Assim que tivermos relacionado todas as combinações possíveis de predileção pelos tipos de cerveja e pelo 
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Para testar se duas 
variáveis são 
independentes, 
uma amostra é 
selecionada e uma 
tabulação cruzada 
é utilizada para 
sintetizar 
simultaneamente 
os dados das duas 
variáveis. 
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sexo ou, em outras palavras, relacionado todas as contingências possíveis, a Tabela 11.3 passa a chamar- 
se tabela de contingência. O teste de independência usa um formato de tabela de contingência e, por essa 
razão, às vezes, é denominado teste da tabela de contingência. 

Suponha que uma amostra aleatória simples de 150 consumidores de cerveja seja selecionada. Depois 
de degustar cada cerveja, os indivíduos da amostra foram solicitados a manifestar sua predileção, ou pri- 
meira escolha, A tabulação cruzada da Tabela 11.4 resume as respostas do estudo. Conforme observamos, 
os dados do teste de independência são coletados em termos de contagens ou frequências corresponden- 
tes a cada célula ou categoria. Dos 50 indivíduos da amostra, 20 eram homens que preferiam a cerveja 
light; 40, a cerveja comum; 20, a cerveja escura; e assim por diante. 

Os dados da Tabela 11.4 são as fregiências observadas das seis classes ou categorias. Se pudermos 
determinar as freqüéncias esperadas sob a hipótese de independência entre as preferências por cada tipo 
de cerveja e sexo do consumidor de cerveja, poderemos usar a distribuição quiquadrado para determinar 
se há uma diferença significativa entre as frequências observadas e esperadas. 


Tabela 11.4 Resultados amostrais da predileção por tipo de cerveja da parte de homens e mulheres consu- 
midores de cerveja (frequências observadas) 


Cerveja Preferida 


Light Comum Escura Total 

Sexo Masculino 20 40 20 80 
Feminino 30 30 10 70 

Total 50 . 70 30 150 


Tabela 11.5 Freqüéncias esperadas se a predileção pela cerveja independer do sexo do consumidor 


Cerveja Preferida 


Light Comum Escura Total 

Sexo Masculino 26,67 37,33 16,00 80 
Feminino 23,33 32,67 14,00 70 

Total 50,00 70,00 30,00 150 


As freqüéncias esperadas das células da tabela de contingéncia baseiam-se no seguinte fundamento 
lógico. Em primeiro lugar, supomos que a hipótese nula de independência entre a predileção por determi- 
nado tipo de cerveja e o sexo do consumidor de cerveja seja verdadeira. Entáo, observamos que, na amos- 
tra inteira dos 150 consumidores de cerveja, um total de 50 prefere a cerveja light; 70, a cerveja comum; 
e 30, a cerveja escura. Em termos de frações, concluímos que 945, = Ya dos consumidores de cerveja pre- 
ferem a cerveja light; "ьо = “As, a cerveja comum; e 8150 = Vs, a cerveja escura. Se a hipótese de inde- 
pendência for válida, argumentamos que essas frações devem ser aplicáveis tanto a consumidores de cer- 
veja homens como a consumidores de cerveja mulheres. Desse modo, sob a hipótese de independência, 
esperaríamos que a amostra de 80 consumidores de cerveja homens demonstre que (%)80 = 26,67 prefe- 
rem a cerveja light; (75)80 = 37,33, a cerveja comum; e (%)80 = 16, a cerveja escura. A aplicação das 
mesmas frações aos 70 consumidores de cerveja mulheres produz as freqüéncias esperadas apresentadas 
na Tabela 11.5. 

Admitamos que e; denote a frequência esperada correspondente à categoria da tabela de contingência 
na linha i, coluna j. Com essa notação, reconsideremos o cálculo da frequência esperada para os homens 
(linha i = 1) que preferem a cerveja comum (coluna j = 2); ou seja, a fregiiência esperada e,,. Seguindo 
o argumento anterior referente ao cálculo das frequências esperadas, podemos mostrar que 


ei; 7 (75)80 = 37,33 
Essa expressão pode ser escrita de uma maneira ligeiramente diferente: 


(8070 _ 


= (7, = (79 = = 
ср = (4980 = (P5980 = = 3733 
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Note que 80 na expressão é o número total de homens (total da linha 1), 70 é o número total de indivíduos 
que preferem a cerveja comum (total da coluna 2) e 150 é o tamanho total da amostra. Portanto, dizemos 
que 
(Total da Linha IX(Total da Coluna 2) 

Tamanho da Amostra 


er 


A generalização da expressão mostra que a fórmula seguinte produz as freqiiências esperadas para uma 
tabela de contingência no teste de independência, 


FREQUÊNCIAS ESPERADAS PARA TABELAS DE CONTINGÊNCIA 
SOB A HIPÓTESE DE INDEPENDÊNCIA 


(Total da Linha iX Total da Coluna j) 
ei Tamanho da Amostra 


(11.9) 


Usando a fórmula para os consumidores de cerveja homens que preferem a cerveja escura, encontra- 
mos uma freqüéncia esperada igual a e;  (80)(30)/150 = 16,00, como é mostrado na Tabela 11.5. Use 
a Equação 11.9 para verificar as outras freqüéncias esperadas apresentadas na Tabela 11.5. 

O procedimento de teste para comparar as frequências observadas da Tabela 11.4 com as freqüéncias 
esperadas da Tabela 11.5 é similar aos cálculos de eficiência de ajuste feitos na Seção 11.2. 
Especificamente, o valor y? baseado nas freqüéncias observadas esperadas é o seguinte: 


ESTATÍSTICA DE TESTE DE INDEPENDÊNCIA 


rss DU (1.10) 
ij ў 


em que 


fy = frequência observada para a categoria da tabela de contingência na linha i, coluna j. 
e; = freqüéncia esperada para a categoria da tabela de contingência na linha i, coluna j baseada na 
hipótese de independência. 


Observação: Com n linhas e m colunas na tabela de contingência, a estatística de teste tem uma distri- 
buição quiquadrado com (п — 1Y(m — 1) graus de liberdade, desde que as freqüéncias esperadas sejam 
cinco ou mais para todas as categorias. 


O somatório duplo na Equação 11.10 é usado para indicar que o cálculo deve ser feito para todas as 
células da tabela de contingência. 

Ао revisarmos as freqüéncias esperadas na Tabela 11.5, vemos que as freqiiências esperadas são cinco 
ou mais para cada categoria. Por conseguinte, prosseguimos com os cálculos da estatística de teste quiqua- 
drado. Os cálculos necessários para calcular a estatística de teste quiquadrado para determinar se a predi- 
leção por determinado tipo de cerveja independe do gênero do consumidor são apresentados na Tabela 
11.6. Notamos que o valor da estatística de teste é y? = 6,12. 

O número de graus de liberdade para a distribuição quiquadrado apropriada é calculado multiplican- 
do-se o número de linhas menos 1 pelo número de colunas menos 1. Com duas linhas e três colunas, temos 
(2 — 1)(3 — 1) = 2 graus de liberdade. À semelhança do que ocorre com o teste de eficiência de ajuste, o 
teste de independência rejeita Но se as diferenças entre as freqüéncias observadas e esperadas produzirem 
um valor grande para a estatística de teste. Assim, o teste de independência também é um teste da cauda 
superior. Usando a tabela quiquadrado (Tabela 3 do Apêndice B), concluímos que a área da cauda supe- 
rior, ou valor p, em у? = 6,12 está entre 0,025 e 0,05. O Excel exibe o valor p = 0,0468. No nível de sig- 
nificância 0,05, o valor p = a = 0,05. Rejeitamos a hipótese nula de independência e concluímos que a 
preferência por determinado tipo de cerveja não independe do sexo do consumidor de cerveja. 
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Tabela 11.6 Cálculo da estatística de teste quiquadrado para determinar se a preferéncia por determinado 
tipo de cerveja independe do sexo do consumidor 


Quadrado da Difference 


Freqüéncia Ғгедіёпсіа Quadrado da Dividido pela 
Cerveja Observada — Esperada Diferença Diferença Freqüéncia Esperada 

Sexo Preferida (fi) (ei) (fi = ei) (f; - ey? (f - eife 
Masculino Light 20 26,67 26,67 4444 1,67 
Masculino Comum 40 37,33 2,67 7 0,19 
Masculino Escura 20 16,00 4,00 16,00 1,00 
Feminino Light 30 23,33 6,67 44,44 1,90 
Feminino Comum 30 32,67 22,67 7, 0,22 
Feminino Escura 10 14,00 24,00 16,00 1,14 
Total 150 x2= 6,12 


Figura 11.1 Saída de dados (output) do Minitab para o teste de independência da Alber's Brewery 
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oos ü 
H ^ + 
Total 50 70 30 . 150 7 
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Softwares, como o Minitab e o Excel, podem simplificar o cálculo do teste de independência e forne- 
cer o valor p para o teste. Аз etapas usadas para se obter os resultados de computador para um teste de 
independéncia sáo apresentadas nos Apéndices 11.2 e 11.3. A saída de dados do Minitab para o teste da 
independéncia da Alber's Brewery é apresentada na Figura 11.1. 

Embora os resultados do teste n&o nos permitam tirar conclusóes adicionais, podemos comparar infor- 
malmente as freqüéncias observadas e esperadas para obtermos uma idéia a respeito da dependência entre 
a predileção por um tipo de cerveja e o género dos consumidores. Consultemos as Tabelas 11.4 e 11.5. 
Vemos que os consumidores de cerveja homens tém freqüéncias observadas maiores que as freqüéncias 
esperadas tanto para a cerveja comum como para a cerveja escura, ao passo que os consumidores de cer- 
veja mulheres tém uma freqüéncia esperada maior que a freqüéncia esperada somente no que se refere à 
cerveja light. Essas observações nos dão insight sobre as diferenças quanto à predileção por um tipo de 
cerveja entre os consumidores homens e mulheres. 

Vamos resumir as etapas do teste de independência em uma tabela de contingência. 


TESTE DE INDEPENDÊNCIA: RESUMO 
1. Estabeleça as hipóteses nula e alternativa. 
Ho: A variável coluna é independente da variável linha 
H; A variável coluna não é independente da variável linha 
2. Selecione uma amostra aleatória e registre as frequências observadas para cada célula da tabela de 
contingência. 
3. Use a Equação 11.9 para calcular a frequência esperada de cada célula. 
4. Use a Equação 11.10 para calcular o valor da estatística de teste. 
5. Regra de rejeição: 
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Critério do valor p: Rejeitar Hg: se o valor p = а 
Critério do valor crítico: Вејейаг Ho se x? = y2, 
em que а é o nível de significância, com n linhas e m colunas produzem (n — 1)(m — 1) graus de liberdade. 


NOTAS E COMENTÁRIOS 


A estatística de teste para os testes quiquadrado apresentados neste capítulo requer uma freqüéncia espe- 
rada igual a cinco para cada categoria. Quando uma categoria tem um número menor que 5, freqüente- 
mente é apropriado combinar duas categorias adjacentes de cinco ou mais unidades em cada uma. 


Exercícios 


Métodos 


19. A tabela de contingência 2 X 3 apresentada a seguir contém as frequências observadas corresponden- 


tes a uma amostra de tamanho 200. Teste a independência das variáveis linha e coluna usando o teste 
x? com a = 0,05. 


Variável Coluna 


Variável Linha A B с 
Р 20 44 50 
© 30 26 30 


20. 


A tabela de contingéncia 3 X 3 apresentada a seguir contém as freqüéncias observadas corresponden- 
tes a uma amostra de tamanho 240. Teste a independência das variáveis linha e coluna usando x? com 
а = 0,05. 


Variável Coluna 


Variável Linha A B C 
P 20 30 20 
Q 30 60 25 
R 10 15 30 
Aplicações 
21. Uma das questões do Estudo dos Assinantes (Subscriber Study, da Business Week) foi: “Nos últimos 
doze meses, ao fazer viagens de negócios, qual tipo de passagem aérea você comprou mais freqüen- 
temente?", Os dados obtidos são apresentados na seguinte tabela de contingência: 
Tipo de Vôo 
Tipo de Passagem Vôos Domésticos Vôos Internacionais 
Primeira-classe 29 2 
Classe Business/Executiva 95 121 
Full fare economy! /Classe turística 518 135 
Use а = 0,05 e teste a independéncia do tipo de удо e do tipo de passagem. Qual é a sua conclusáo? 
22. 


Em um estudo sobre a fidelidade à marca na indústria automobilística, compradores de carros novos 
foram solicitados a responder se a marca de seu carro era a mesma do carro que possuíam anterior- 
mente (Business Week, 8 de maio de 2000). O detalhamento das 600 respostas mostra a fidelidade à 
marca relativa a carros nacionais, europeus e asiáticos. 


1 NT: Full fare economy — Nas viagens aéreas, as classes full fare economy e turística são, ambas, econômicas. A diferença entre uma 


e outra é que a classe full fare economy é um pouco mais cara e geralmente dá certos direitos, como reembolsos, transferências, troca 
de dias e horários etc. 
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Fabricante 
Comprou * Nacional Europeu Asiático 
А Mesma Marca 125 55 68 
Uma Marca Diferente 140 105 107 


23. 


a. Teste uma hipótese para determinar se a fidelidade à marca independe do fabricante. Use а = 0,05. 
Qual é a sua conclusáo? 

b. Se uma diferença significativa for encontrada, qual fabricante parece contar com a maior fidelida- 
de à marca? 


Em virtude dos aumentos percentuais anuais de dois dígitos no custo dos seguros-saúde, um número 
cada vez maior de trabalhadores provavelmente ficará sem a cobertura de um seguro-saúde (USA 


“Today, 23 de janeiro de 2004). Os dados amostrais seguintes fornecem uma comparação dos traba- 


Ihadores de pequenas, médias e grandes empresas que possuem e as que não possuem cobertura de 
um seguro-saúde. Para a finalidade desse estudo, denominamos pequenas empresas as que têm menos 
de 100 funcionários; médias empresas são as que possuem de 100 a 999 funcionários e grandes 
empresas são as empresas que contam com mais de mil funcionários. Dados amostrais referentes a 
50 funcionários de pequenas empresas, 75 de médias empresas e 100 de grandes empresas foram 
registrados. 


Seguro-Saúde 


Tamanho da Empresa Sim Não Total 
Pequena 36 i4 50 
Média 65 10 75 
Grande 88 12 100 


24. 


а, Realize um teste de independência para determinar se a cobertura de seguro-saúde dos funcioná- 
rios independe do tamanho da empresa. Use @ = 0,05. Qual é o valor p e qual é a sua conclusáo? 

b. O artigo do USA Today indicou que os funcionários de pequenas empresas tém mais probabilida- 
de de ficar sem cobertura de um seguro-saúde, Use porcentagens baseadas nos dados acima para 
dar suporte a essa conclusão. 


Um estudo realizado pelo Public Interest Research Group (PIRG) do Estado de Washington revelou 
que 46% dos estudantes universitários que fazem cursos de tempo integral realizam seus trabalhos 
acadêmicos durante mais de 25 horas por semana. O estudo do PIRG apresentou dados sobre os efei- 
tos dos trabalhos acadêmico sobre a obtenção do diploma (USA Today, 17 de abril de 2002). Uma 
amostra de 200 estudantes incluiu 90 que realizavam trabalhos académicos de 1 a 15 horas por sema- 
na; 60, de 16 a 24 horas por semana; e 50, de 25 a 34 horas por semana, O número de estudantes da 
amostra que indicaram que seus trabalhos tinham um efeito positivo, nenhum efeito ou um efeito 
negativo sobre a obtenção de seus diplomas são os seguintes: 


Efeito sobre a Obtenção do Diploma 


Horas de Trabalho por Semana Positivo Nenhum Negativo Total 
Га 15 horas 26 50 14 90 
16 a 24 horas l6 27 17 60 
25 а 34 horas П i9 20 50 


25. 


a. Realize um teste de independência para determinar se o efeito sobre a obtenção do diploma inde- 
pende das horas de trabalho por semana. Use a = 0,05. Qual é o valor p e qual é a sua conclusão? 

b. Use porcentagens de linha para conhecer melhor como os trabalhos académicos afetam a obtenção 
do diploma. Qual é a sua conclusão? 


O apelo negativo é reconhecido como um método eficaz de persuasão na propaganda. Um estudo 
publicado em The Journal of Advertising relatou os resultados de uma análise de conteúdo de publi- 
cidades com apelos à culpa e ao medo veiculados em 24 revistas. O número de anúncios com apelos 
à culpa e ao medo que apareceram em tipos de revista selecionados refere-se ao: 
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Tipo de Apelo 
Número de Anúncios Número de Anúncios com 
Tipo de Revista com Apelos à Culpa Apelos ao Medo 
Notícias e opinião 20 10 
Editoria geral 15 11 
Orientada à familia 30 19 
Negóciosfinanças 2 17 
Orientada à mulher l6 14 
Afro-americana 12 15 


Use o teste de independência quiquadrado com o nível de significância 0,01 para analisar os dados. 
Qual é а sua conclusáo? 


26. O comércio faz colocação de pedidos on-line em um número cada vez maior. O Performance 
Measurement Group coletou dados sobre os custos das encomendas eletrónicas atendidas correta- 
mente pela indústria (nvestor's Business Daily, 8 de maio de 2000). Suponha que uma amostra de 
700 encomendas eletrónicas tenha produzido os seguintes resultados: 


Indústria 
Produtos Itens de Equipamentos de 
Pedido Farmacêuticos Consumo Computadores Telecomunicações 
Corretos 207 136 151 178 
Incorretos 3 4 9 12: 


а. Teste uma hipótese para determinar se а exatidáo em termos de atendimento do pedido independe 
da indústria. Use а = 0,05. Qual é a sua conclusão? 
b. Qual indústria tem a porcentagem mais elevada de exatidão no atendimento dos pedidos? 


27. A National Sleep Foundation utilizou uma pesquisa para determinar se as horas de sono por noite 
independem da idade (Newsweek, 19 de janeiro de 2004). Os dados a seguir apresentam as horas de 
sono por noite de uma amostra de indivíduos com menos de 49 anos e de uma amostra de indivíduos 
com mais de 50 anos. 


Horas de Sono 
Idade Menos de 6 de 6a 6,9 de7a79 8 ou mais Total 
Menos de 49 anos 38 60 77 65 240 
Ма de 50 anos 36 57 75 92 260 


a. Realize um teste de independéncia para determinar se as horas de sono por noite independem da 
idade. Use а = 0,05. Qual é o valor p e qual é a sua conclusão? 

b. Qual é a sua estimativa da porcentagem de pessoas que dormem menos de 6 horas, de 6 a 6,9 horas, 
de 7 a 7,9 horas e de 8 ou mais horas por noite? 


Resumo 


Neste capítulo, descrevemos procedimentos estatísticos que envolvem proporções e o teste de independén- 
cia da tabela de contingência de duas variáveis. Na primeira seção, comparamos uma proporção de uma 
população com a mesma proporção de outra. Descrevemos como construir uma estimação por intervalo da 
diferença entre as proporções e como realizar um teste de hipóteses para saber se a diferença entre as pro- 
porções era estatisticamente significativa. 

Na segunda seção, concentramo-nos em uma única população multinomial. Ali, vimos como realizar 
testes de hipóteses para determinar se as proporções amostrais correspondentes às categorias da popula- 
ção multinomial eram significativamente diferentes dos valores tomados como hipótese. O teste quiqua- 
drado de eficiência de ajuste foi utilizado para fazer a comparação. A seção final foi preenchida com testes 
de independência para duas variáveis. Um teste de independência para duas variáveis é uma extensão da 
metodologia empregada no teste de eficiência de ajuste para uma população multinomial. Uma tabela de 
contingência é usada para determinar as fregiiências observadas e esperadas. Então, é calculado um valor 
quiquadrado. Valores quiquadrado grandes, causados por diferenças grandes entre as freqüéncias observa- 
das e esperadas, levam à rejeição da hipótese nula de independência. 
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Glossário 


Estimador agrupado de p Um estimador de uma proporção populacional obtido calculando-se a média 
ponderada das proporções amostrais obtidas de duas amostras independentes. 


População multinomial Uma população na qual cada elemento é designado a uma e somente uma de 
diversas categorias. A distribuição multinomial amplia a distribuição binomial de dois para três ou mais 
resultados. 

Teste de eficiência de ajuste Um teste estatístico realizado para determinar se convém rejeitar uma dis- 
tribuição de probabilidade hipotética referente a uma população. 

Tabela de contingência Uma tabela usada para resumir as frequências observadas e esperadas de um teste 
de independência. f 

Fórmulas-Chave 
Estimador por Ponto da Diferença Entre Duas Proporções Populacionais 


5i o P (1.1) 


Op, = pl — р) | pd — p) (11.2) 
n n; 


Estimação por Intervalo da Diferença Entre Duas Proporções Populacionais 


Bi — D+ Zan Da x Pp) + PA = P) (11.4) 
"OH no 


Erro Padrão de p, — p; Quando р, = p; = р 


1 1 
Og - p, = 41р(1 — ola + а) (11.5) 


Estimador Agrupado de p Quando p, = p; = p 


Erro Padrão de p, — p; 


_ _ mP, + np, 
poe (11.6) 


Estatística de Teste para Testes de Hipóteses sobre py — pz 


pi EIS (11.7) 


1 1 
WT Pla, й а) 


Estatística de Teste da Eficiéncia de Ajuste 
k e 
p-X429 (tid 
i=1 і 


Freqüéncias Esperadas para Tabelas de Contingéncia sob a Hipótese de Independéncia 


_ (Total da Linha iXTotal da Coluna j) 
а= Tamanho da Amostra (11.9) 


Estatística de Teste de Independência 


"zx is 2 
je ууй x) (11.10) 
1] ў 


Exercícios Suplementares 


28. A Jupiter Media utilizou uma pesquisa para determinar como as pessoas usam o tempo livre. Assistir 
à televisão foi a atividade mais popular escolhida tanto pelos homens quanto pelas mulheres (The Wall 
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Street Journal, 26 de janeiro de 2004). A proporção de homens e a proporção de mulheres que esco- 
Iheram assistir à televisão como a atividade de lazer mais popular podem ser estimadas em decorrên- 
cia dos seguintes dados amostrais. А - : 


Género 7 Tamanho da Amostra “Assistir à Televisão 
Homens y 800 248 — 
Mulheres : 600 156. 


a. Estabelega as hipóteses que podem ser usadas para testar a diferenca entre a proporção da popula- 
ção de homens e a proporção da população de mulheres que escolheram assistir à televisão como 
a atividade de lazer mais popular. = 
b. Qual é a proporção amostral de homens que escolheram assistir. à televisão como а atividade de 
^ lazer mais popular? Qual é a proporção amostral de mulheres? € EE T ар 
c. Realize um teste de hipóteses e calcule o valor p. Ao nível de significância 0,05, qual é é a sua con- 
clusáo? .,, -— > а aab Hele "E S. Do 
- d. Qual é a margem de erro е a estimação por intervalo de confiança de 95% entre as proporções 
populacionais? .. s боз), Ж а, ЖЫ X у меча: а жак d 
29. Uma grande empresa de seguros de automóvel selecionou amostras de segurados do sexo masculino 
solteiros e casados e registrou o número dos que fizeram uma reclamação de seguro ao longo: dos trés 


últimos anos. "ES = У 
era 


Segurados Solteiros x SEE Casados 
n, = 400 s лу = 900 
Número dos que fizeram uma reclamação Número dos que fizeram uma reclamação 
de seguro = 76 - . de seguro = 90 " 

a. Use a = 0,05. Teste para determinar se os índices de reclamagáo de seguros diferem entre os segu- 

rados solteiros e casados. , Pe очасы. ЕТЫ 
b. Forneça um intervalo de confiança de 95% серое à diferença entre as proporções das duas 

populações. |. dit D Pla meadd na ' hs a 


30. Exames médicos foram realizados para se conhecer melhor a tuberculose resistente a medicamentos. 
De 142 casos examinados em New Jersey, nove foram considerados resistentes a medicamentos. Dos 
268 casos examinados no Texas, cinco foram considerados resistentes a medicamentos. Esses dados 
sugerem uma diferença estatisticamente significativa entre a proporção de casos resistentes a medica- 
mentos nos dois estados? Use um nível de significância 0,02. Qual é o valor p e qual é a sua conclusão? 


31. Em julho de 2001, a Harris Ad Track Research Service realizou uma pesquisa para avaliar a eficácia 
de uma grande campanha publicitária das câmaras Kodak (USA Today, 27 de agosto de 2001). Em uma 
amostra de 430 entrevistados, 38% consideraram os anúncios muito eficazes. Em outra amostra de 285 


entrevistados quanto a outras campanhas publicitárias, 23% consideraram os anúncios muito eficazes. 
Р n 
a. Estime o número de entrevistados que consideraram” os anúncios da Kodak muito eficazes e о 


i número de entrevistados que acharam os outros anúncios muito eficazes. 
ГЪ. Forneça um intervalo de confiança de 95% para a diferença entre as proporções. ae 
c. Com base nos resultados que obtéve no item (b), vocé acredita que a campanha publicitária da 
Kodak é mais eficaz que a maioria das campanhas publicitárias? - 


‚ 32. Em junho de 2001, 38% dos gerentes de fundos financeiros pesquisados acreditavam que o índice do 
núcleo inflacionário seria mais alto em um ano. Um mês depois, uma pesquisa idêntica revelou que 
22% dos gerentes de fundos financeiros esperavam que o índice do núcleo inflacionário seria mais 
alto em um ano (Global Research Highlights, Merrill Lynch, 20 de julho de 2001). Suponha que o 
tamanho da amostra tenha sido 200 tanto na pesquisa de junho como ná de julho. 


Y E 


a. Desenvolva uma estimação por ponto da diferença entre as proporções de junho e julho de gerentes 
“de fundos financeiros que achavam que 1 índice do núcleo inflacionário : seria Mais alto em um ano. 
b. Desenvolva hipóteses de tal forma que a rejeição da hipótese nula nos s permita concluir que as 
expectativas de inflação diminuíram entre junho e julho. E : e 
c. Realize um teste das hipóteses dos itens (a) e (b) usando a = 0,01. Qual é a sua сопс1изйо?. 


33. Sete por cento dos investidores de fundos mútuos classificam as obrigações ao portador de “muito 
seguras”; 58%, de “relativamente seguras”; 24%, de “não muito seguras”; 4%, de “absolutamente 
inseguras”; e 7% “não sabem”. Uma pesquisa de opinião promovida pela Business Week/Harris per- 
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guntou a 529 investidores de fundos mútuos como eles avaliariam os títulos privados em termos de 
segurança. As respostas foram as seguintes: 


Avaliação da Segurança Freqüéncia 
Muito seguros 48 
Relativamente seguros 323 
Мао muito seguros 79 
Absolutamente inseguros 16 
Мао sabem 63 
Total 529 


34. 


A postura que os investidores de fundos mútuos possuem em relação aos títulos privados é diferente 
daquela que têm quanto às obrigações ao portador? Sustente sua conclusão com um teste estatístico. 
Use a = 0,01. 

Desde 2000, o Toyota Camry, o Honda Accord e o Ford Taurus são os três veículos de passageiros 
mais vendidos nos Estados Unidos. Com base nos dados de vendas de 2003, as participações no mer- 
cado entre os três mais vendidos são: Toyota Camry, 37%; Honda Accord, 34%; e Ford Taurus, 29% 
(The World Almanac, 2004). Suponha que uma amostra de 1.200 vendas de carros de passageiros 
durante o primeiro trimestre de 2004 apresente o seguinte: 


Carro de Passageiros Unidades Vendidas 
Toyota Camry 480 
Honda Accord 390 
Ford Taurus 330 


35. 


Esses dados podem ser usados para concluirmos que as participações no mercado entre os três carros 
de passageiros mais vendidos se alteraram durante o primeiro trimestre de 2004? Qual é o valor p? 
Use o nível de significância 0,05. Qual é a sua conclusão? 


Uma autoridade regional de trânsito está preocupada com o número de ciclistas em uma de suas rotas 
de ônibus. Ao planejar a rota, a suposição é de que o número de ciclistas seja o mesmo todos os dias, 
de segunda a sexta-feira. Usando os dados apresentados a seguir, faça um teste com a = 0,05 para 
determinar se a suposição da autoridade de trânsito está correta. 


36. 


Dia Número de Ciclistas 
Segunda-feira 13 
Terça-feira l6 
Quarta-feira 28 
Quinta-feira 17 
Sexta-feira l6 


Os resultados da pesquisa intitulada Annual Job Satisfaction Survey, da Computerworld, revelaram 
que 28% dos gerentes de Sistemas de Informação (SI) estão muito satisfeitos com seus empregos, 
46% estão relativamente satisfeitos, 12% não estão nem satisfeitos nem insatisfeitos, 10% estão rela- 
tivamente insatisfeitos, e 4% estão muito insatisfeitos. Suponha que uma amostra de 500 programa- 
dores tenha fornecido os seguintes resultados. 


Categoria Número de Entrevistados 
Muito satisfeitos 105 
Relativamente satisfeitos E 235 
Nem satisfeitos nem insatisfeitos 55 
Relativamente insatisfeitos 90 
Muito insatisfeitos 15 


Use а = 0,05 e faça um teste para determinar se a satisfação сот o trabalho da parte dos programa- 
dores é diferente da satisfação com o trabalho da parte dos gerentes de sistemas de informação. 
Uma amostra de pegas forneceu os dados da seguinte tabela de contingéncia sobre a qualidade das 
peças por turno de produção. 
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38. 


Turno Nümero de Pecas com Boa Qualidade Nümero de Pecas Defeituosas 
Primeiro 368 32 
Segundo 285 15 
Terceiro 176 24 


Use a = 0,05 e teste a hipótese de que a qualidade das peças independe do turno de produção. Qual 
é a sua conclusáo? 


Um Estudo dos Assinantes (Subscriber Study) do The Wall Street Journal publicou dados sobre a 
situação de emprego dos assinantes. Os resultados da amostra correspondentes aos assinantes das edi- 
ções da região leste e oeste do país aparecem na tabela a seguir: 


Região 
Situação de Emprego Edição do Leste Edição do Oeste 
Tempo integral 1.105 574 
Tempo parcial 3l. 15 
Autónomo/consultor 229 186 
Мао empregado 485 344 


39. 


Use a = 0,05 e teste a hipótese de que a situação de emprego independe da região do país. Qual é a 
sua conclusão? 

Uma instituição de empréstimo forneceu os seguintes dados sobre aprovações de crédito em quatro 
departamentos de crédito. Use a = 0,05 e faça um teste para determinar se a decisão de aprovar o 
crédito independe do diretor de crédito que analisa o pedido de empréstimo: 


Decisão de Aprovação do Empréstimo 


Diretor de Crédito Aprovado Recusado 
Miller 24 l6 
McMahon 17 13 
Сатеѕ 35 15 
Runk II ` 9 


40. 


Dados sobre o estado civil de homens e mulheres com idades de 20 a 29 anos foram obtidos como 
parte de uma pesquisa nacional. Os resultados de uma amostra de 350 homens e 400 mulheres sáo os 
seguintes: 


Estado Civil 
Género Solteiro Casado Divorciado 
Homem 234 106 10 
Mulheres 216 168 16 


a. Use a = 0,01 e teste a independência entre o estado civil e o género. Qual é a sua conclusão? 
b. Resuma a porcentagem de cada categoria de estado civil relativa aos homens e às mulheres. 


41. O Barna Research Group coletou dados que mostram a freqüéncia à igreja por faixa etária (USA Today, 


20 de novembro de 2003). Use os dados amostrais para determinar se a frequência à igreja indepen- 
de da idade. Use um nível de significância 0,05. Qual é a sua conclusão? Qual conclusão você pode 
tirar a respeito da freqüéncia à igreja à medida que as pessoas se tornam mais velhas? 


Frequência à Igreja 


Idade Sim Não - Total 
20а 29 31 69 100 
30a 39 63 87 Г50 
40 a 49 94 106 200 
50а 59 72 78 150 


42. 


Um vendedor realiza quatro contatos de vendas por dia. Uma amostra de 100 dias fornece as seguin- 
tes freqéncias de volumes de vendas. 
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Nümero de Vendas Freqüéncia Observada (em dias) 
0 30 
| 32 
2 25 
3 10 
4 —. 
Total 100 


Registros mostram que sáo realizadas vendas em 30% de todos os contatos de vendas. Supondo con- 
tatos de vendas independentes, o número de vendas por dia deve seguir uma distribuição binomial. A 
funcáo binomial de probabilidade apresentada no Capítulo 5 é 


n! 7 л—х 
FO) = xn = xt? G — p) 


Para esse exercício, suponha que a população tenha uma distribuição binomial com n = 4, p = 0,30 

ех -0,1,2,3e4. 

a. Calcule as fregiiências esperadas para x = 1, 2, 3 e 4 usando a função binomial de probabilidade. 
Se necessário, combine categorias para satisfazer o requisito de a fregiência esperada ser cinco ou 
mais de todas as categorias. 

b. Use um teste de eficiência de ajuste para determinar se a hipótese de uma distribuição binomial 
deve ser rejeitada. Use a = 0,05. Uma vez que nenhum parâmetro da distribuição binomial foi esti- 
mado a partir dos dados amostrais, os graus de liberdade são k — 1 quando К é o número de cate- 
gorias. 


Estudo de Caso — Programa Bipartidário de Reforma 


Em um estudo realizado pela Zogby International para o periódico Democrat and Chronicle, mais de 700 
nova-iorquinos foram consultados para determinar se o governo do estado de Nova York é competente. Os 
entrevistados integrantes da pesquisa foram solicitados a responder perguntas que envolviam reduções 
salariais aos deputados estaduais, restrições aos lobistas, limitações de tempo de mandato para os parla- 
mentares e possibilidade de os cidadãos de cada estado sugerirem temas diretamente para serem votados. 
Os resultados referentes a diversas reformas propostas obtiveram amplo apoio entre todos os níveis demo- 
gráficos e políticos. 

Suponha que uma pesquisa de acompanhamento de 100 indivíduos que vivem na região ceste de Nova 
York tenha sido realizada. A filiação partidária (Democrata, Republicano, Independente) de cada indiví- 
duo foi registrada, bem como as respostas individuais às três perguntas seguintes: 


1. A remuneração dos parlamentares deve ser reduzida em correspondência a cada dia de atraso do 
orçamento estadual? 
Sim. Náo  /— 

2. Deve haver mais restrições aos lobistas? 
Sin Não 

3. Deve haver limitação do tempo de mandato exigindo que os parlamentares permaneçam um núme- 
ro fixo de anos no cargo? 
Sim Não 


As respostas foram codificadas usando 1 para as respostas sir e 2 para as respostas ndo. O conjunto 
de dados (data set) completo está disponível no arquivo intitulado NYReform no site. 


Relatório Administrativo 


1. Use a estatística descritiva para resumir os dados desse estudo. Quais são suas conclusões prelimi- 
nares sobre a independência da resposta (Sim ou Não) e filiação partidária em relação a cada uma 
das três perguntas da pesquisa? 
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2. Com respeito à questão 1, teste a independência da resposta (Sim ou Não) e a filiação partidária. 
Use а = 0,05. 


3. Com relação à questão 2, teste a independência da resposta (Sim ou Não) e a filiação partidária. 
Use a = 0,05. 

4. Referente à questão 3, teste a independência da resposta (Sim ou Não) e a filiação partidária. Use 
& — 0,05. 

5. Parece haver amplo apoio à reforma entre todas as tendéncias políticas? Explique. 


Apêndice 11.1 – Inferéncias sobre Duas Proporções 
Populacionais com o Minitab 


Descrevemos o uso do Minitab para desenvolver estimações por intervalo e realizar testes de hipóteses 
sobre as diferenças entre duas proporções. Usaremos os dados de erros de preenchimento do imposto de 
renda apresentados na Seção 11.1. Os resultados amostrais referentes a 250 declarações do imposto 
de renda preparados no escritório 1 estão na coluna C1 e os resultados amostrais de 300 declarações pre- 
paradas no escritório 2 estão na coluna C2. Sim denota que um erro foi detectado na declaração do impos- 
to de renda e Não indica que nenhum erro foi encontrado. O procedimento que descrevemos fornece tanto 
uma estimação por intervalo de 90% de confiança da diferença entre as duas proporções populacionais 
como os resultados do teste de hipóteses para Ho: ру — p; = 0 contra Hy p, — p; * 0. 


Etapal. Selecione o menu Stat 

Etapa 2. Escolha a opção Basic Statistics 

Etapa 3. Escolha a opção 2 Proportions 

Etapa 4. Quando a caixa de diálogo 2 Proportions (Test and Confidence Interval) aparecer: 
Selecione Samples in different columns 
Digite C1 na caixa First 
Digite C2 na caixa Second 
Selecione Options 

Etapa 5. Quando a caixa de diálogo 2 Proportions-Options aparecer: 
Digite 90 na caixa Confidence level 
Digite 0 na caixa Test difference 
Digite not equal (n&o igual) na caixa Alternative 
Selecione Use pooled estimate of p for test 
Dé um clique em OK 

Etapa 6. Dê um clique em ОК 


À etapa 5 pode ser modificada para produzir diferentes níveis de valores hipotéticos e diferentes formas 
das hipóteses. 

No exemplo de preenchimento do imposto de renda, os dados são qualitativos. Sim e Não são usados 
para indicar se há algum erro. Nos módulos que envolvem proporções, o Minitab calcula proporções para 
a resposta que aparece em segundo lugar na ordem alfabética. Desse modo, no exemplo de preenchimento 
do imposto de renda, o Minitab calcula a proporção de respostas Sim, a qual é a proporção que queríamos. 

Se a classificação em ordem alfabética do Minitab não calcular a proporção da resposta que nos inte- 
ressa, podemos resolver isso. Selecionamos qualquer célula na coluna de dados, vamos à barra de menus 
do Minitab e selecionamos Editor > Column > Value Order. Essa sequência oferecerá a opção de introdu- 
zirmos uma ordem de classificação especificada pelo usuário. Simplesmente, certifique-se de que a res- 
posta de interesse esteja relacionada na caixa define-an-order. A rotina 2 Proportion do Minitab fornece- 
rá então o intervalo de confiança e os resultados do teste de hipóteses referentes à proporção populacional 
de interesse. 

Finalmente, notamos que a rotina 2 Proportion do Minitab usa um procedimento computacional dife- 
rente do procedimento descrito no texto. Assim, pode-se esperar que a saída de dados (output) do Minitab 
forneça estimações por intervalo e valores p ligeiramente diferentes. Entretanto, os resultados dos dois 
métodos devem estar próximos entre si, e espera-se que forneçam a mesma interpretação e conclusão. 
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Apêndice 11.2 – Testes de Eficiência de Ajuste e de Independência com o 
Minitab 
Teste de Eficiência de Ajuste 


Esse procedimento do Minitab pode ser usado para um teste de eficiência de ajuste de uma distribuição 
multinomial. O usuário precisa obter as frequências observadas, calcular as freqüéncias esperadas e inse- 
rir tanto as freqüéncias observadas como as fregiiências esperadas em uma planilha do Minitab. A Coluna 
C1 é rotulada como Observed e contém as freqüéncias observadas. A Coluna C2 é rotulada como Expected 
e contém as freqüéncias esperadas. Use o exemplo da Scott Marketing Research apresentado na Seção 
11.2, abra uma planilha do Minitab, digite as freqüéncias observadas 48, 98 e 54 na coluna C1 e digite as 
fregüéncias esperadas 60, 100 e 40 na coluna C2. As etapas do Minitab para o teste de eficiência de ajus- 
te são as seguintes: 


Etapa 1. Selecione o menu Calc 

Etapa 2. Escolha a opção Calculator 

Etapa3. Quando a caixa de diálogo Calculator aparecer: 
Digite ChiSquare na caixa Store result in variable 
Digite Sum((C1-C2)**2/C2) na caixa Expression 
Dê um clique em OK 

Etapa4. Selecione o menu Calc 

Etapa 5. Escolha Probability Distributions 

Etapa 6. Escolha Chi-Square 

Etapa 7. Quando a caixa de diálogo Chi-Square Distribution aparecer: 
Selecione Cumulative probability 
Digite 2 na caixa Degrees of freedom 
Selecione Input column e digite ChiSquare na caixa 
Dê um clique em OK 


A saída de dados (output) do Minitab fornece a probabilidade cumulativa 0,9745, a qual está na área 
sob a curva à esquerda de y2 = 7,34. A área restante na cauda superior é o valor p. Desse modo, obtemos 
valor p = 1— 0,9745 = 0,0255. 


Teste de Independéncia 


Iniciamos com uma nova planilha do Minitab e inserimos os dados de freqüéncia observada corresponden- 
tes ao exemplo da Alber's Brewery da Seção 11.3 nas colunas 1, 2 e 3, respectivamente. Dessa forma, inse- 
rimos as freqüéncias observadas correspondentes à preferência pela cerveja light (20 e 30) na coluna СІ, 
as frequências observadas correspondentes à preferência pela cerveja comum (40 e 30) em C2 e as fre- 
qüéncias observadas correspondentes à preferência pela cerveja escura (20 e 10) em C3. As etapas do 
Minitab para o teste de independência são as seguintes: 


Etapa 1. Selecione o menu Stat 
Etapa 2. Selecione Tables 
Etapa3. Escolha a opção Chi-Square Test (Table in Worksheet) 
Etapa 4. Quando a caixa de diálogo Chi-Square Test aparecer: 
` Digite C1-C3 na caixa Columns containing the table 
Dé um clique em OK 


Apéndice 11.3 – Testes de Eficiência de Ajuste e de Independência 
com o Excel* 
Teste de Eficiéncia de Ajuste 


Esse procedimento do Excel usa um teste de eficiência de ajuste para uma distribuição multinomial. O 
usuário precisa obter as freqüéncias observadas, calcular as frequências esperadas e inserir tanto as fre- 
qüéncias observadas como as freqüéncias esperadas em uma planilha do Excel. 


* Não há rotinas disponíveis para se fazer inferências sobre a diferença entre duas proporções populacionais. 


Capítulo 11 | Comparações Envolvendo Proporções e Teste de Independência 


As freqüéncias observadas e esperadas correspondentes ao exemplo da Scott Marketing Research da 
Seção 11.2 são inseridas nas colunas А e B, como mostra a Figura 11.2. A estatística de teste y? = 7,34 é 
calculada na coluna D. Com k = 3 categorias, o usuário insere os graus de liberdade k- 1 = 3-1 = 2 na 
célula D11. A função DIST.QUI fornece o valor p na célula D13. A planilha em segundo plano exibe as 
fórmulas contidas nas células. 


Teste de Independência 


O procedimento do Excel para o teste de independência exige que o usuário obtenha as frequências obser- 
vadas e as insira na planilha. O exemplo da Alber's Brewery da Seção 11.3 fornece as freqüéncias obser- 
vadas, as quais são inseridas nas células B7 a D8, como é mostrado na planilha da Figura 11.3. As fórmu- 
las contidas em células apresentadas na planilha em segundo plano mostram o procedimento usado para 
calcular as freqüéncias esperadas. Com duas linhas e três colunas, o usuário insere os graus de liberdade 
(2 -1X3 – 1) = 2 na célula E22. A função TESTE.QUI fornece o valor p na célula E24. 


Figura 11.2 Planilha do Excel para o teste de eficiência de ajuste da Scott Marketing Research 


Ask В I c |. Di: « „у. E 
Teste de eficiência de ajuste 
Freqüéncia| Freqüéncia| 
Observada| Esperada Cálculos 
a 48. |. 60. | z(AS-BSUQ/BS. a 


98 100 -(A6-BG)^2/B6 
* :54 [s 1404 =(А7-В7)^2/В7 É 


Estatística de Teste zSOMA(DS;D7) і 


МФ [алсак |O 
E 


10 | 
‘11 Graus de Liberdade | 2 
12 
13 di Valor de p [-DSTEOURDSDT D 
14| || | ee UNE С 5 E 
1 | Teste de eficiência de ajuste J 
2 
3 | Fregiiência] Frequência 
4 | Observada| Esperada Cálculos 
5 48 60 2,40 
6 98: 100 1 *0,04 
7| 54 40. 4,90 
8 
9 EB de Teste E... 7,34 
10 
1i Graus de Liberdade 2 
12 
13 Valor дер 0255 
14 
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Figura 11.3 Planilha do Excel para o teste de independéncia da Alber's Brewery 


: А В j ср nm * F 

1 | Teste de Independência! 

2i 

[3 | Fregiiência Observada 

4 i 

5 Cerveja Preferida 

6 Comum 

7 { Masculino йирик: EN 

8 | Feminino =SOMA(B$:D8) 

9 =SOMA(D7:D8) [-SOMA(ETZE8) > 

10 

п 

[12 | Freqüéncia Esperada 

[13 И 

|14| Cerveja Preferida А 

15 | Ѕехо Comum Escura Total 

16 | Masculino EPCOSSESI[-EDDSSSES омрю x | | A | Bw] С ур р E F. 

| 17 | Feminino -ES^CSO/SES9 |«ER*DS9/SES9 | =SUM(BIT:DIT): 1 | Teste de Independência 
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20 | Estatística de Teste [E 4 
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25 9 
[10] 
ш me) 
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13 
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17 | Feminino p 2333 | 32,67 EY 


18 | Total 301701 150 
19 
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21 
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CAPÍTULO 12 


Regressão Linear Simples 


ESTATÍSTICA NA PRÁTICA 


ALLIANCE DATA SYSTEMS* 
Dallas, Texas 


А Alliance Data Systems (ADS) oferece processamento de transações, serviços de crédito e serviços de 
marketing a clientes da crescente indústria do gerenciamento das relações com o cliente — customer relations- 
hip management (CRM). Os clientes da ADS concentram-se em quatro indústrias: varejo, petróleo/lojas de 
conveniência, serviços públicos e transportes. Em 1983, a Alliance começou a oferecer serviços de processa- 
mento de crédito end-to-end! para indústrias varejistas, petrolíferas e de restaurantes; atualmente, a empre- 
sa emprega mais de 6.500 funcionários que prestam serviços a clientes de todas as partes do mundo. 
Operando mais de 140 mil terminais de ponto-de-venda somente nos Estados Unidos, a ADS processa mais 
de 2,5 bilhões de transações anualmente. A empresa classifica-se em segundo lugar nos Estados Unidos no 
setor de prestação de serviços de crédito private label,? representando 49 programas private label que con- 
tam com aproximadamente 72 milhões de portadores de cartões de crédito. Em 2001, a ADS fez uma ofer- 
ta pública inicial e agora está relacionada na Bolsa de Valores de Nova York. 

Como um dos seus serviços de marketing, a ADS projeta campanhas e promoções por mala direta. 
Considerando que seu banco de dados contém informações sobre os hábitos de compra de mais de 100 
milhões de consumidores, a ADS pode visar aos consumidores que mais provavelmente se beneficiarão de 
uma promoção por mala direta. O Analytical Development Group utiliza análise de regressão para construir 


* Os autores agradecem a Philip Clemance, diretor de desenvolvimento da Alliance Data Systems, por fomecer esta “Estatística 
na Prática”. 

INT; End-to-end — Proteção por criptografia de uma informação veiculada por meio de um sistema de telecomunicações do ponto 
de origem até o ponto de destino. 

2NT: Private label — Os private labels são operações de financiamento destinadas a pessoas físicas realizadas através de cartão de 
crédito emitido por empresa do ramo de comércio ou serviços. 


428 


Métodos 
estatísticos usados 
no estudo da 
relação entre duas 
variáveis foram 
empregados pela 
primeira vez por 
sir Francis Galton 
(1822-1911). 
Galton estava 
interessado em 
estudar a relacáo 
entre a altura de 
um pai e a altura 
de um filho. O 
discipulo de 
Galton, Karl 
Pearson (1857- 
1936), analisou a 
relação entre а 
altura de pais e 
filhos utilizando 
1.078 pares de 
sujeitos. 


Estatística Aplicada à Administracáo e Economia 


modelos que possam medir e prever a receptividade dos clientes a campanhas de marketing direto. Alguns 
modelos de regressão prevêem a probabilidade de os indivíduos que recebem uma promoção efetuarem uma 
compra, e outros prevêem a quantia gasta por esses consumidores ao efetuarem uma compra. 

Em determinada campanha, uma loja de varejo queria atrair novos clientes. Para prever o efeito da campa- 
nha, os analistas da ADS selecionaram uma amostra do banco de dados de consumidores, enviaram matérias 
promocionais a indivíduos selecionados e depois coletaram dados sobre as transações indicadas nas respostas 
dadas pelo consumidores. Foram coletados dados amostrais sobre o valor da compra efetuada pelos clientes 
que responderam à campanha, além de uma série de variáveis específicas ao cliente que eram consideradas 
Úteis na previsão das vendas, A variável específica ao cliente que mais contribuiu para prever a quantia compra- 
da foi o valor total das compras de crédito nas lojas relacionadas durante os últimos 39 meses. 

Os analistas da ADS desenvolveram uma equação de regressão estimada que relaciona o valor da compra 
com a quantia gasta nas lojas relacionadas: 


ў = 26,7 + 0,00205x 
em que 


ў = valor da compra 
x = valor gasto nas lojas relacionadas 


Usando essa equação, poderíamos prever que alguém, que gastou US$ 10 mil durante os últimos 39 meses 
nas lojas relacionadas, gastaria US$ 47,20 ao responder à promoção de mala direta. Neste capítulo, você apren- 
derá a desenvolver esse tipo de equação de regressão estimada. 

O modelo final desenvolvido pelos analistas da ADS também incluiu diversas outras variáveis que aumenta- 
ram o poder de previsão da equação anterior. Algumas das variáveis incluídas foram a faita ou a posse de um car- 
tão de crédito bancário, a renda estimada e a quantia média gasta em cada ida a uma loja selecionada. No pró- 
ximo capítulo você aprenderá como se pode incorporar variáveis adicionais a um modelo de regressão mültipla. 


As decisões administrativas frequentemente se baseiam na relação entre duas ou mais variáveis. Por exem- 
plo, depois de considerar a relação entre os gastos publicitários e as vendas, um gerente de marketing 
poderia tentar prever as vendas correspondentes a determinado nível de gastos publicitários. Em outro 
caso, uma empresa de serviços públicos poderia usar a relação entre a elevada temperatura diária e a 
demanda por eletricidade para prever o uso de energia elétrica com base na previsão de temperaturas ele- 
vadas para o próximo mês. Às vezes, o gerente pode recorrer à intuição para julgar a maneira pela qual 
duas variáveis estão relacionadas. Entretanto, se for possível obter os dados, um procedimento estatístico 
denominado análise de regressão pode ser usado para desenvolver uma equação que demonstra como as 
variáveis se relacionam. 

Na terminologia da análise de regressão, a variável que é prevista é dita variável dependente, A variá- 
vel ou variáveis usadas para prever o valor da variável dependente denominam-se variáveis independen- 
tes. Por exemplo, ao analisar o efeito dos gastos publicitários sobre as vendas, o desejo do gerente de 
marketing de prever as vendas sugeriria tornar as vendas a variável dependente. Os gastos publicitários 
seriam a variável independente usada para ajudar a prever as vendas. Na notação estatística, y designa a 
variável dependente e x, a variável independente. 

Neste capítulo, consideraremos o tipo mais simples de análise de regressão envolvendo uma variável 
independente e uma variável dependente na qual a relação entre as variáveis se aproxima de uma linha reta. 
Ela é chamada regressão linear simples. A análise de regressão que envolve duas ou mais variáveis inde- 
pendentes denomina-se análise de regressão múltipla; a regressão múltipla será abordada no Capítulo 13. 


12.1 MODELO DE REGRESSÃO LINEAR SIMPLES 


A Armand's Pizza Parlors é uma rede de restaurantes de comida italiana localizada em cinco estados norte- 
americanos. As localizações mais bem-sucedidas dos restaurantes Armand's estão próximas a campi univer- 
sitários. Os gerentes acreditam que as vendas trimestrais nesses restaurantes (designadas y) estão relaciona- 
das positivamente com o tamanho da população estudantil (designado x); ou seja, os restaurantes próximos 
a campi universitários que contam com uma grande população estudantil tendem a gerar mais vendas que 
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aqueles que estão localizados próximos a campi que contam com uma pequena população estudantil. Usando 
análise de regressão, podemos determinar uma equação que mostra como a variável dependente y está rela- 
cionada com a variável independente x. 


Modelo de Regressão e Equação de Regressão 


No exemplo dos restaurantes Armand's Pizza Parlors, a população consiste em todos os restaurantes 
Armand's. Para cada restaurante da população, um valor x (população estudantil) corresponde a um valor y 
(vendas trimestrais). A equação que descreve como y está relacionado com x e com um termo de erro deno- 
mina-se modelo de regressão. O modelo de regressão usado na regressão linear simples é o seguinte: 


MODELO DE REGRESSÃO LINEAR SIMPLES 
»=BotBx+e (12.1) 


Bo + B, são chamados parâmetros do modelo, е є (a letra grega epsílon) é uma variável aleatória que se 
denomina termo de erro. O termo de erro é responsável pela variabilidade em y que não pode ser explica- 
da pela relação linear entre x e y. 

A população de todos os restaurantes Armand's também pode ser vista como uma coleção de subpo- 
pulações, sendo uma para cada valor distinto de x. Por exemplo, uma subpopulação consiste em todos os 
restaurantes Armand's localizados próximo a campi universitários com 8 mil estudantes; outra subpopula- 
ção consiste em todos os restaurantes Armand's localizados próximo a campi universitários com 9 mil 
estudantes e assim por diante. Cada subpopulação tem uma distribuição correspondente de y valores. 
Desse modo, uma distribuição de y valores está associada a restaurantes localizados próximo a campi uni- 
versitários com 8 mil estudantes; uma distribuição de y valores está associada a restaurantes localizados 
próximo a campi com 9 mil estudantes, e assim por diante. Cada distribuição de y valores tem sua própria 
média ou valor esperado. A equação que descreve como o valor esperado de у ~ designado por E(y) — está 
relacionado com x denomina-se equação de regressão. A equação de regressão para a regressão linear 
simples é a seguinte: 


EQUAÇÃO DE REGRESSÃO LINEAR SIMPLES 
E) = Bo + Вх (12.2) 


O gráfico da equação de regressão linear simples é uma linha reta; 3, é o ponto onde a linha (ou reta) 
de regressão intercepta o eixo y, 8, é inclinação (declive) e E(y) é a média ou valor esperado de y рага 
determinado valor de x. 

Exemplos de possíveis retas de regressão são mostrados na Figura 12.1. A reta de regressão do Painel 
A mostra que o valor médio de y está relacionado positivamente com x, e valores maiores de E(y) estão 
associados a valores maiores de x. À reta de regressão do Painel B mostra que o valor médio de y está rela- 
cionado negativamente com x, e valores menores de E(y) estão associados a valores maiores de x. A reta 
de regressão do Painel C apresenta o caso em que o valor médio de y não está relacionado com x; ou seja, 
o valor médio de y é o mesmo para todo valor de x. 


Equação de Regressão Estimada 


Se os valores dos parâmetros populacionais f, e 8; fossem conhecidos, poderíamos usar a Equação 12.2 para 
calcular o valor médio de y para dado valor de x. Na prática, os valores paramétricos não são conhecidos, e 
precisam ser estimados usando-se os dados amostrais. A estatística da amostra (designada por by e bi) é cal- 
culada como estimativa dos parâmetros f, e 8, da população. Substituindo os valores da estatística da amos- 
tra, bo e b, por By e В, na equação de regressão, obtemos a equação de regressão estimada. 
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Figura 12.1 Retas de regressão possíveis na regressão linear simples 


Painel A: Painel B: Painel C: 
Relacáo Linear Positiva Relacáo Linear Negativa Sem Relacáo 
E) Бу) у) 


Interseção 


by 


Reta de regressão | _ 
À inclinação Ву nterseção 


A inclinação 8, é O 
é negativa В, 


Reta de regressão 


A inclinação 8, 
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Reta de regressão 


A equação de regressão estimada para a regressão linear simples é a seguinte: 


EQUAÇÃO DE REGRESSÃO LINEAR SIMPLES ESTIMADA 
$7by bx (12.3) 


O gráfico da equação de regressão linear simples estimada denomina-se reta de regressão ponderada; by é 
o ponto de interseção com o eixo y e 5, é a inclinação. Na próxima seção, mostraremos como o método dos 
mínimos quadrados pode ser usado para calcular os valores de b, e b; na equação de regressão estimada. 

Em geral, ў é o estimador por ponto de E(y), o valor médio de y para dado valor de x. Desse modo, 
para estimar a média ou o valor esperado das vendas trimestrais correspondentes a todos os restaurantes 
localizados nas proximidades de campi universitários com 10 mil estudantes, a Armand's substituiria o 
valor 10 mil por x na Equação 12.3. Em alguns casos, entretanto, a Armand's pode estar mais interessada 
em prever as vendas em um restaurante popular. Por exemplo, suponha que a Armand's queira prever as 
vendas trimestrais do restaurante localizado próximo ao Talbot College, uma escola com 10 mil estudan- 
tes. Ocorre que a melhor estimativa de y para dado valor de x também é fornecida por ў. Assim, para pre- 
ver as vendas trimestrais no restaurante localizado próximo ao Talbot College, a Armand's substituiria o 
valor 10 mil por x na Equação 12.3. 

Uma vez que o valor de Ў fornece uma estimação por ponto de E(y) para determinado valor de x, tanto 
quanto uma estimação por ponto de um valor individual de y para dado valor de x, chamaremos ў simples- 
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NOTAS E COMENTÁRIOS 


1. A análise de regressão não pode ser interpretada como um procedimento para estabelecer uma relação 
de causa e efeito entre as variáveis. Ela somente é capaz de indicar como ou em que grau as variáveis 
estão associadas entre si. Quaisquer conclusões sobre causa e efeito devem basear-se no julgamento 
das pessoas que têm o melhor conhecimento da aplicação. 

2. A equação de regressão da regressão linear simples é E(y) = Во + 84x. Livros mais avançados sobre 
análise de regressão frequentemente grafam a equação de regressão como E(ylx) = Во + fx para enfa- 
tizar que a equação de regressão produz o valor médio de y para dado valor de x. 


12.2 MÉTODO DOS MÍNIMOS QUADRADOS 


O método dos mínimos quadrados é um procedimento que usa dados amostrais para encontrar a equação 
de regressão estimada. Para ilustrar o método dos mínimos quadrados, suponha que tenham sido coletados 
dados de uma amostra de dez restaurantes Armand's Pizza Parlors localizados nas proximidades de diver- 
sos campi universitários. Em relação à i-ésima observação ou restaurante da amostra, x, é o tamanho da 
população estudantil (em milhares) e y; são as vendas trimestrais (em milhares de dólares). Os valores de x, 
€ y; correspondentes aos dez restaurantes da amostra estão resumidos na Tabela 12.1. Notamos que o res- 
taurante 1, com x, = 2 e y, = 58, localiza-se próximo a um campus com 2 mil estudantes, e tem vendas tri- 
mestrais de US$ 58 mil. O restaurante 2, com x; — 6 € y; — 105, localiza-se próximo a um campus com 
6 mil estudantes e tem vendas trimestrais de US$ 105 mil. O maior valor de vendas é do restaurante 10, que 
se localiza próximo a um campus com 26 mil estudantes e tem vendas trimestrais de US$ 202 mil. 

A Figura 12.3 representa um diagrama de dispersáo dos dados da Tabela 12.1. A populagáo estudantil 
é mostrada no eixo horizontal e as vendas trimestrais, no eixo vertical. Os diagramas de dispersão para 
análise de regressão são construídos com a variável independente x no eixo horizontal e a variável depen- 
dente y no eixo vertical. O diagrama de dispersão nos possibilita observar os dados graficamente e tirar 
conclusões prévias sobre a possível relação entre as variáveis. 

Quais conclusões prévias se pode tirar da Figura 12.3? As vendas trimestrais parecem ser mais eleva- 
das nos campi que possuem maiores populações estudantis. Além disso, referente a esses dados, a relação 
entre o tamanho da população estudantil e as vendas trimestrais parece aproximar-se de uma linha reta; de 
fato, uma relação linear positiva é indicada entre x e y. 


Tabela 12.1 Dados sobre a população de estudantes e as vendas trimestrais em dez 
restaurantes Armand's Pizza Parlors 


População de Vendas Trimestrais 
Restaurante Estudantes (em milhares) (em milhares de dólares) 

i X у 

| 2 58 

2 6 105 

3 8 88 

4 8 118 

5 12 117 

6 16 137 

7 20 157 

8 20 169 

9 22 149 
10 26 202 
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Figura 12.3 Diagrama de dispersão da população de estudantes e das vendas trimestrais 
dos restaurantes Armand's Pizza Parlors 


Vendas Trimestrais (em milhares de dólares) 


O 2 4 6 8 10 12 14 16 18 20 22 24 26 


População de Estudantes (em milhares) 


Por conseguinte, escolhemos o modelo de regressão linear simples para representar a relação entre as ven- 
das trimestrais e a população de estudantes. Dada essa escolha, nossa próxima tarefa é usar os dados amos- 
trais da Tabela 12.1 para determinar os valores de bọ e b, na equação de regressão linear simples estima- 
da. Para o i-ésimo restaurante, a equação de regressão estimada fornece: 


$,7 by + Бух, (12.4) 


em que 
9, = valor estimado das vendas trimestrais (em milhares de dólares) para o i-ésimo restaurante 
bo = o ponto em que a reta de regressão estimada intercepta y 
b, = а inclinação da reta de regressão estimada 
x; = o tamanho da população estudantil (em milhares) para o i-ésimo restaurante 


е y; designa as vendas observadas (reais) do restaurante i e que ӯ; na Equação 12.4 representa o valor esti- 
mado das vendas do restaurante i, todo restaurante da amostra terá um valor observado de vendas y, e um 
valor estimado de vendas ĵ;. Para que a reta de regressão estimada produza um ajuste eficiente para os 
dados, queremos que as diferenças entre os valores de venda observados e os valores de venda estimados 
sejam pequenos. 

O método dos mínimos quadrados utiliza dados amostrais para produzir os valores by e Бу que mini- 
mizam a soma dos quadrados dos desvios entre os valores observados da variável dependente y; e os valo- 
res estimados da variável dependente. O critério utilizado no método dos mínimos quadrados é dado pela 
Equação 12.5. 


CRITÉRIO DOS MÍNIMOS QUADRADOS 
min Ж(у, — $? (12.5) 


em que 
у; = valor observado da variável dependente para a i-ésima observação 
9. = valor estimado da variável dependente para a i-ésima observação 
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Pode-se usar cálculo diferencial para mostrar que os valores de by e de b; que minimizam a Equação 


12.5 podem ser encontrados usando-se as Equagóes 12.6 e 12.7. 


Para calcular b, 


INCLINAÇÃO E INTERSEÇÃO СОМ O EIXO y NA EQUAÇÃO DE REGRESSÃO ESTIMADA” dora 
5(х, —-30;-» carregue o maior 
b E- 3? (12.6) nimero possível 
de dígitos 
Бо = ў – Бух (12.7) significativos nos 
cálculos 
em que intermediários. 
x; = valor da variável independente para a i-ésima observação ane ne 
y; = valor da variável dependente para a i-ésima observação mínimo, quatro 
X = valor médio da variável independente dígitos 
y = valor médio da variável dependente significativos. 
n = número total de observações 


Alguns dos cálculos necessários para se desenvolver a equação de regressão estimada pelo método dos 
mínimos quadrados para o caso dos restaurantes Armand's Pizza Parlors são mostrados na Tabela 12.2. 
Com a amostra de 10 restaurantes, temos n = 10 observações. Uma vez que as Equações 12.6 e 12.7 reque- 
rem X e ӯ, iniciamos os cálculos computando X e y. 


_ Xx 140 
х = 2% MO 

п 10 

Уу, _ 1300 
у = “= —— = 130 


Usando as Equações 12.6 e 12.7 e a informação contida na Tabela 12.2, podemos calcular a inclinação 
(declive) e a interseção da equação de regressão estimada referente ao exemplo dos restaurantes Armand's 


Pizza Parlors. O cálculo da inclinação (5) desenvolve-se da seguinte forma: 


Tabela 12.2 Cálculos da eq 


uacáo de regressão estimada por mínimos quadrados para o caso dos 
restaurantes Armand's Pizza Parlors 


Restaurante i X 
| 2 
2 6 
3 8 
4 8 
5 12 
6 16 
7 20 
8 20 
9 22 
10 26 
Totais 140 
Èx 


У: 
58 
05 
88 
18 
17 
37 
57 
69 
49 

202 


1.300 
Zy, 


X-Xx 


212 
28 
26 


26: 


22 


6 


12 


yi-y 
272 
225 
242 
212 
213 
7 
27 
39 
19 
72 


(х; - х)(у;– Y) (x —x» 


864 
200 
252 

72 

26 

14 
162 
234 
152 
864 


2.840 


144 
64 
36 
36 

4 
4 
36 
36 
64 


X — Ху: Ӯ) E — x} 


* Uma fórmula alternativa para b, é 


b= 


= Eyi — (х,у 
2x — Gun 


Essa forma da Equação 12.6 freqüentemente é recomendada quando se usa uma calculadora para calcular В|. 
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Os Apéndices 

12.1 e 122 
mostram como o 
Minitab e o Excel 
podem ser usados 
para se obter a 
equação de 
regressão 
estimada, 


O uso da equação 
de regressão 
estimada para 
fazer previsões 
fora do intervalo 
de valores da 
variável 
independente 
deve ser feito com 
cautela porque, 
fora do intervalo, 
não podemos ter 
certeza de que a 
mesma relação é 
válida. 
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p - EG - DO 9 
! у(х, — 2)? 
. 2.840 
568 
O cálculo da interseção de y (bo) é a seguinte: 
b =F- bł 
= 130 — 5(14) 
= 60 


Desse modo, a equação de regressão estimada é 
)=60+5x 


A Figura 12.4 exibe o gráfico dessa equação no diagrama de dispersão. 

A inclinação da equação de regressão estimada (b, = 5) é positiva, implicando que, à medida que a 
população estudantil aumenta, as vendas também sobem. Realmente, podemos concluir (com base nas 
vendas medidas em milhares de dólares e a população estudantil em milhares de alunos) que um aumen- 
to de mil alunos na população estudantil é associado a um acréscimo de US$ 5 mil nas vendas esperadas; 
ou seja, espera-se que as vendas trimestrais tenham um aumento de US$ 5 por estudante. 

Se acreditarmos que a equação de regressão estimada pelo método dos mínimos quadrados descreve 
adequadamente a relação entre x e y, poderia parecer razoável usarmos a equação de regressão estimada 
para prever o valor de y para determinado valor de x. Por exemplo, se quiséssemos prever as vendas tri- 
mestrais de um restaurante a ser localizado próximo a um campus universitário com 16 mil estudantes, cal- 
cularíamos: 


ў = 60 + 5(16) = 140 


Portanto, preveríamos vendas trimestrais de US$ 140 mil para esse restaurante. Nas seções seguintes, dis- 
cutiremos métodos para avaliar a conveniência de usar a equação de regressão estimada para fins de esti- 
mação e previsão. 


Figura 12.4 Gráfico da equação de regressão estimada para os restaurantes Armand's Pizza Parlors: 
ў = 60 + 5х 


< 
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E 
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80 
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NOTAS E COMENTÁRIOS 


O método dos mínimos quadrados fornece uma equação de regressão estimada que minimiza a soma 
de desvios quadráticos entre os valores observados da variável dependente y, e os valores estimados da 
variável dependente 3,. O critério dos mínimos quadrados é usado para escolher a equação que forne- 
ce o melhor ajuste. Se algum outro critério fosse usado, por exemplo, minimizar a soma dos desvios 
absolutos entre y; e 5;, uma equação diferente seria obtida. Na prática, o método dos mínimos quadra- 
dos é o mais amplamente usado. 


Exercícios 


Métodos 


1, São dadas cinco observações referentes a duas variáveis, x e y. 
m|1 2 3 4 5 
н [3 7 5 п 14 
a. Desenvolva um diagrama de dispersáo para esses dados. 
b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas 
variáveis? 
c. Tente aproximar a relação entre x e y traçando uma linha reta entre os dados. 
d. Desenvolva a equação de regressão estimada calculando os valores de bọ e by usando as Equações 
12.6 e 12.7. 
e. Use a equação de regressão estimada para prever o valor de y quando x = 4, 


AUTOTESTE 


2. São dadas cinco observações referentes a duas variáveis, x e y. 
x|2 3 5 1 8 
y |25 25 20 30 16 
а, Desenvolva um diagrama de dispersáo para esses dados. 
b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas 
variáveis? 
c. Tente aproximar a relação entre x e y traçando uma linha reta entre os dados. 
d. Desenvolva a equação de regressão estimada calculando os valores de bg e by usando as Equações 
12.6 e 12.7. 
e. Use a equação de regressão estimada para prever o valor de y quando x = 6. 


3. São dadas cinco observações coletadas em um estudo de regressão sobre duas variáveis. 
x|l2 4 5 7 8 
» |2 3 2 6 4 
a. Desenvolva um diagrama de dispersão para esses dados. 
b. Desenvolva a equação de regressão estimada para esses dados. 
c. Use a equação de regressão estimada para prever o valor de y quando x = 4. 


Aplicações 
4. Foram coletados os seguintes dados sobre altura (metros) e peso (quilogramas) de nadadoras: 


Altura | 172 1,63 1,57 1,65 1,68 
Peso | 59,87 48,98 46,26 52,16 58,05 


a. Desenvolva um diagrama de dispersão desses dados, sendo a altura a variável independente. AUTOTESTE 
b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas 
variáveis? 
c. Tente aproximar a relação entre altura e peso traçando uma linha reta entre os dados. 
d. Desenvolva a equação de regressão estimada calculando os valores de by e bj. 
e. Se a altura de uma nadadora for 1,60 m, segundo sua estimativa, qual seria seu peso? 


5. Os avanços tecnológicos ajudaram a tornar o paddlecraft inflável adequado para o uso em regiões dis- 
tantes. Esses barcos infláveis de borracha, que podem ser enrolados em um feixe não muito maior que 
uma sacola de golfe, são grandes o bastante para acomodar um ou dois remadores e seus apetrechos 
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de camping. A revista Canoe & Kayak fez testes com barcos de nove fabricantes para determinar qual 
seria seu desempenho em uma viagem de trés dias, a remo, por regiões ermas. Um dos critérios de ava- 
liação foi a capacidade do barco para transportar bagagem, avaliada em uma escala de 4 pontos de 1 
(a menor classificação) a 4 (a mais alta classificação). Os dados a seguir apresentam a avaliação da 
capacidade de transporte de bagagem e o preço do barco (Canoe & Kayak, março de 2003). 


Capacidade de 
Barco Transporte de Bagagem Preço (US$) 
514 4 1.595 
Orinoco 4 1.399 
Outside Pro 4 1.890 
Explorer 380X 3 795 
River XK2 2,5 600 
Sea Tiger 4 1.995 
Maverik II 3 1.205 
Starlite 100 2 583 
Fat Pack Cat 3 1.048 


a. Desenvolva um diagrama de dispersão desses dados, sendo a avaliação da capacidade de transpor- 
te de bagagem a variável independente. 

b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre capaci- 
dade e preço? 

c. Trace uma linha reta entre os dados para fazer uma aproximação de uma relação linear entre a capa- 
cidade de transporte de bagagem e preço. 

d. Use o método dos mínimos .quadrados para desenvolver a equação de regressão estimada. 

e. Apresente uma interpretação da inclinação da equação de regressão estimada. 

f. Preveja-o:preço-de um barco-com capacidade de transporte de bagagem cuja avaliação é 3. 


76. “A Wageweb realiza pesquisas de dados salariais e apresenta os resumos em seu site. Com base nos dados 
salariais.de 1º de-outubro de 2002, a Wageweb divulgou que o salário médio anual dos vice-presidentes 
“de vendas era-US$ 142.111, com uma média de bonificação anual de US$ 15.432 (Wageweb.com, 13 de 
“março de 2003). Suponha que os dados seguintes sejam uma amostra do salário anual e das bonificações 
“де dez vice-presidentes de vendas. Os dados estão expressos em milhares de dólares. 


Vice-Presidente Salário Bonificações 
| 135 12 
2 115 14 
3 146 l6 
4 167 19 
5 165 22 
6 176 24 
7 98 7 
8 136 7 
9 163 18 
to 119 ! 


a. Desenyolva um diagrama de dispersáo desses dados, sendo o salário a variável independente. 
b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre salários 
-e bonificações? 
с. Use o método dos mínimos quadrados para desenvolver a equação de regressão estimada. 
d. Apresente uma interpretação da inclinação da equação de regressão estimada. 
^ e Preveja uma bonificação рага um vice-presidente de vendas que recebe um salário anual de 
US$ 120 mil. 


7. Você acha que os carros mais confiáveis custam mais caro? A Consumer Reports avaliou 15 sedãs de 
primeira-linha. A corifiabilidade foi avaliada em uma escala-de 5 pontos: fraca (1), razoável (2), boa 
(3), ótima (4) e excelente (5). As avaliações de preço e confiabilidade de cada um dos 15 carros são 
mostradas a seguir (Consumer Reports, fevereiro de 2004). 
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Marca e Modelo Confiabilidade Preço (US$) 
Acura TL 4 33.150 
. BMW 330i 3 40.570 
Lexus 15300 5 35.105 > 
Lexus ES330 5 35.174 ARQUIVO 
Mercedes-Benz C320 | 42.230 
Lincoln LS Premium (V6) 3 38225 DIISTERINET 
Audi A4 3.0 Quattro 2 37.605 Cars 
Cadillac CTS ` 37.695 
Nissan Maxima 3.5 SE 4 34.390 
nfiniti 135 5 33.845 
Saab 9-3 Aero 3 36.910 
nfiniti G35 4 34.695 
aguar X-Type 3.0 | 37.995 
Saab 9-5 Arc 3 36.955 
Volvo S60 2.5T 3 33.890 


a. Desenvolva um diagrama de dispersão desses dados, sendo a avaliação da confiabilidade a variá- 
vel independente. 

b. Desenvolva a equação de regressão estimada por mínimos quadrados. 

c. Com base em sua análise, você acha que os carros mais confiáveis custam mais caro? Explique. 

d. Estime o preço de um sedã de primeira-linha que tenha uma avaliação de confiabilidade média. 


8. Mountain bikes que custam menos de US$ 1.000 agora contêm muitos dos componentes de alta qua- 
lidade que até recentemente estavam disponíveis somente em modelos caros. Atualmente, até mesmo 
modelos que custam menos de US$ 1.000 muitas vezes oferecem suspensão elástica, clipless pedais? 
e estruturas altamente planejadas pela engenharia. Uma questão interessante é se o preço mais alto 
embute um nível mais elevado de manuseio, sendo este medido em termos da capacidade de side- 
track? da bicicleta. A Outside Magazine usou uma escala de classificação de 1 a 5, com 1 represen- 
tando uma avaliação média e 5, uma avaliação excelente. A capacidade de sidetrack e o preço de dez 
bicicletas testadas pela Outside Magazine são apresentados a seguir (Outside Magazine Buyer's 
Guide, 2001). 


Fábrica e Modelo Capacidade de Sidetrack Preço (US$) > 
Raleigh M80 | 600 ARQUIVO 
Marin Bear Valley Feminina | 649 d 
GT Avalanche 2.0 2 799 D^ INTERNET 
Kona Jake the Snake | 899 MtnBikes 
Schwinn Moab 2 3 950 

Giant XTC NRS 3 4 1.100 

Fisher Paragon Genesisters 4 1.149 

Jamis Dakota XC 3 1.300 

Trek Fuel 90 5 1.550 

Specialized Stumpjumper M4 4 1.625 


a. Desenvolva um diagrama de dispersão desses dados, sendo a capacidade de sidetrack a variável 
independente. 

b. Parece que os modelos mais caros têm um nível de manuseio mais elevado? Explique. 

c. Desenvolva a equação de regressão estimada por mínimos quadrados. 

d. Qual é a estimativa de preço de uma mountain bike se ela tiver uma avaliação da capacidade de 
sidetrack igual a 4? 


3 NT: Clipless pedal — Tipo de pedal que contém um mecanismo que prende a sapatilha. Basta um movimento para liberar a sapati- 
Tha do pedal. 
4 NT: Sidetrack — Trilha ou caminho alternativo; terreno acidentado. 
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9. Um gerente de vendas coletou os seguintes dados sobre as vendas anuais e os anos de experiência 
profissional. 
Anos de Experiência Vendas Anuais 
Vendedor Profissional (em milhares de dólares) 
l I 80 
2 3 97 
3 4 92 
4 4 102 
5 6 103 
6 8 HI 
7 10 119 
8 10 123 
9 П 117 
10 13 136 
a. Desenvolva um diagrama de dispersáo desses dados, sendo os anos de experiéncia profissional a 
variável independente. 
b. Desenvolva uma equação de regressão estimada que poderia ser usada para prever as vendas 
anuais, dados os anos de experiência profissional. 
c. Use a equação de regressão estimada para prever as vendas anuais efetuadas por um vendedor com 
nove anos de experiência profissional. 

10. A PC Worid fomeceu avaliações dos 15 melhores computadores notebook (PC World, fevereiro de 
2000). A avaliação do desempenho é uma medida de quão rapidamente um PC é capaz de rodar uma 
combinação de aplicativos comerciais comuns em comparação com o desempenho de velocidade de 
uma máquina básica para realizar a mesma tarefa. Por exemplo, um PC com uma avaliação de desem- 
penho igual a 200 é duas vezes mais rápido que a máquina básica. Foi usada uma escala de 100 pon- 
tos para representar a classificação geral de cada notebook testado no estudo. Uma avaliação na faixa 
dos 90 pontos é excepcional, ao passo que uma avaliação na faixa dos 70 pontos está acima da média. 
As avaliações de desempenho e as classificações gerais dos 15 notebooks são as seguintes: 

Avaliação do Classificação 

Marca e Modelo Desempenho Geral 
AMS Tech Roadster 15CTA380 15 67 
Compaq Armada M700 91 78 
Compaq Prosignia Notebook 150 53 79 
Dell Inspiron 3700 C466GT 94 80 
Dell Inspiron 7500 R500VT 236 84 
Dell Latitude Cpi A366XT 84 76 
Enpower ENP-313 Pro 84 77 
Gateway Solo 930015 216 22 
HP Pavilion Notebook PC 85 83 
IBM ThinkPad | Series 1480 83 78 
Micro Express NP7400 89 77 
Micron TransPort NX PII-400 202 78 
NEC Versa SX 92 78 
Sceptre Soundx 5200 41 73 
Sony VAIO PCG-F340 87 77 

a. Desenvolva um diagrama de dispersão desses dados, sendo a avaliação de desempenho a variável 

independente. 

b. Desenvolva a equação de regressão estimada por mínimos quadrados. 

c. Estime a classificação global do novo PC que tem uma pontuação de desempenho igual a 225. 

11. Não obstante os atrasos nos grandes aeroportos agora serem menos freqüentes, é útil saber quais aero- 


portos têm probabilidade de fazê-lo perder o horário de seus compromissos. Além disso, se o seu 
avião chegar atrasado em um aeroporto em particular onde você deve fazer uma conexão, qual é a 
probabilidade de a partida se atrasar e, dessa forma, aumentar suas chances de fazer a conexão? Os 
dados a seguir mostram a porcentagem de chegadas e partidas atrasadas durante o mês de agosto em 
13 aeroportos (Business 2.0, fevereiro de 2002). 
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Chegadas Atrasadas Partidas Atrasadas 
Aeroporto (96) (96) 
Atlanta 24 22 
Charlotte 20 20 
Chicago 30 29 
Cincinnati 20 19 
Dallas 20 22 
Denver 23 23 
Detroit 18 19 
Houston 20 l6 
Minneapolis 18 18 
Phoenix 21 22 
Pittsburgh 25 22 
Salt Lake City 18 17 
St. Louis l6 l6 


12. 


a. Desenvolva um diagrama de dispersáo desses dados, sendo a porcentagem de chegadas atrasadas a 
variável independente. 

b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre chega- 
das atrasadas e partidas atrasadas? 

c. Use o método dos mínimos quadrados para desenvolver a equação de regressão estimada. 

d. Apresente uma interpretação da inclinação da equação de regressão estimada, 

e. Suponha que a porcentagem de chegadas atrasadas no aeroporto de Filadélfia durante o mês de 
agosto tenha sido 22%. Qual é a estimativa da porcentagem de partidas atrasadas? 


A tabela seguinte apresenta o número de empregados e a receita (em milhões de dólares) de 20 empre- 
sas (Fortune, 17 de abril de 2000). 


Receita 
Empresa Empregados (milhões de dólares) 
Sprint 77.600 19.930 
Chase Manhattan 74.801 33.710 
Computer Sciences 50.000 7.660 
Wells Fargo 89.355 21.795 
Sunbeam 2.200 2.398 
CBS 29.000 7.510 
Time Warner 69.722 27.333 
Steelcase 6.200 2.743 
Georgia-Pacific 57.000 17.796 
Toro 1.275 4.673 
American Financial 9.400 3.334 
Fluor 53.561 12.417 
Phillips Petroleum 5.900 13.852 
Cardinal Health 36.000 25.034 
Borders Group 23.500 2.999 
MCI Worldcom 77.000 37.120 
Consolidated Edison А 4.269 7.491 
ІВР 45.000 14.075 
Super Value 50.000 р 17.421 
H&R Block 4.200 1.669 


13. 


a. Desenvolva um diagrama de dispersão desses dados, sendo o número de empregados a variável 
independente. ` 

b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre o núme- 
ro de empregados e a receita? 

c. Desenvolva a equação de regressão estimada desses dados. 

d. Use a equação de regressão estimada para prever a receita de uma empresa com 75 mil empregados. 


Para o Internal Revenue Service (Departamento da Receita Federal), a aceitabilidade das deduções 
totais detalhadas depende da renda bruta ajustada do contribuinte. Deduções vultosas, que incluem 
doações a obras assistenciais e deduções de despesas médicas, são mais aceitáveis para contribuintes 
que têm grandes rendas brutas ajustadas. Se um contribuinte reivindicar um valor maior que a média 
das deduções detalhadas para determinado nível de renda, elevam-se as probabilidades de uma audi- 
toria do IRS. Dados (em milhares de dólares) sobre a renda bruta ajustada e a média, ou valor acei- 
tável, das deduções detalhadas são apresentados a seguir: 
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Renda Bruta Ajustada Valor Aceitável de Deduções 
(milhares de dólares) Detalhadas (milhares de dólares) 
22 96 
27 9,6 
32 10,1 
48 MI 
65 13,5 
85 17,7 
120 25,5 
a. Desenvolva um diagrama de dispersão desses dados, sendo a renda bruta ajustada a variável inde- 


pendente, 

b. Use o método dos mínimos quadrados para desenvolver a equação de regressão estimada. 

c. Faça uma estimativa do nível aceitável de deduções detalhadas para um contribuinte que tem uma 
renda bruta ajustada de US$ 52.500. Se esse contribuinte reivindicasse deduções detalhadas de US$ 
20.400, um pedido de auditoria por um fiscal do IRS pareceria justificável? Explique. 


14. Os salários iniciais dos contadores e auditores de Rochester, NY, acompanham os de muitas cidades 
dos Estados Unidos. Os dados a seguir apresentam o salário inicial (em milhares de dólares) e o índi- 
ce do custo de vida de Rochester e de nove outras regiões metropolitanas (Democrat and Chronicle, 
1° de setembro de 2002). O índice do custo de vida, baseado no preço dos alimentos, moradia, impos- 
tos e outros custos, varia de O (o mais caro) a 100 (o mais barato). 


Região Metropolitana Índice Salário (US$1.000) 
Oklahoma City 82,44 23,9 
> Tampa/St, Petersburg/Clearwater 79,89 24,5 
ARQUIVO Indianapolis 55,53 27,4 
Buffalo/Niagara Falls 41,36 27,7 
DA INTERNET Atlanta 39,38 27,1 
Salaries Rochester 28,05 256 
Sacramento 25,50 28,7 
Raleigh/Durham/Chapel Hill 13,32 26,7 
San Diego 3,12 278 
Honolulu 0,57 28,3 
а. Desenvolva um diagrama de dispersáo desses dados, sendo o índice do custo de vida a variável 
independente. 
b. Desenvolva a equação de regressão estimada relacionando o índice do custo de vida com o salário 
inicial. 


c. Estime o salário inicial de uma região metropolitana que tem um índice do custo de vida igual a 50. 


12.3 COEFICIENTE DE DETERMINAÇÃO 


No exemplo dos restaurantes Armand's Pizza Parlors, desenvolvemos a equação de regressão estimada 
9 = 60 + 5x para aproximar a relação linear entre o tamanho da população estudantil x e as vendas trimes- 
trais y. А questão agora é: quão satisfatoriamente a equação de regressão estimada ajusta os dados? Nesta 
seção, mostraremos que o coeficiente de determinação nos dá uma medida da eficiência de ajuste da 
equação de regressão estimada. 

Em relação à i-ésima observação, a diferença entre o valor observado da variável dependente, у, e o 
valor estimado da variável dependente, ;, denomina-se i-ésimo resíduo. O i-ésimo resíduo representa о 
erro de usarmos ӯ, para estimar y;. Dessa forma, рага a i-ésima observação, o resíduo é y; — 3,. A soma dos 
quadrados desses resíduos ou erros é a quantidade que é minimizada pelo método dos mínimos quadrados. 
Essa quantidade, também conhecida como a soma dos quadrados dos erros (sum of squares due to error), 
é designada por SSE. 


SOMA DOS QUADRADOS DOS ERROS 
SSE = X(y, — Y (12.8) 
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O valor da SSE é uma medida do erro de se usar a equação de regressão estimada para estimar os valo- 
res da variável dependente na amostra. 

Na Tabela 12.3, apresentamos os cálculos necessários para se obter a soma dos quadrados dos erros 
para o exemplo dos restaurantes Armand's Pizza Parlors. Por exemplo, para o restaurante 1, os valores das 
variáveis independente e dependente são x, = 2 e y, = 58. Usando a equação de regressão estimada, des- 
cobrimos que o valor estimado das vendas trimestrais рага o restaurante 1 é 9, = 60 + 5(2) = 70. Desse 
modo, o erro de se usar ў; para estimar y; para o restaurante 1 é у, — Ў,= 58 — 70 = -12. O erro elevado 
ao quadrado, (-12)2 = 144, é mostrado па última coluna da Tabela 12.3. Depois de calcular e elevar ао 
quadrado os resíduos correspondentes a cada restaurante da amostra, fazemos seu somatório e obtemos 
SSE = 1.530. Assim, SSE = 1.530 mede o erro de se usar a equação de regressão estimada ў, = 60 + 5x 
para prever as vendas. . 

Suponha agora que nos peçam para desenvolver uma estimativa das vendas trimestrais sem sabermos qual 
é o tamanho da população estudantil. Sem ter o conhecimento de nenhuma das variáveis relacionadas, usa- 
ríamos a média amostral como uma estimativa das vendas trimestrais em qualquer restaurante dado. 


Tabela 12.3 Cálculo da SSE para os restaurantes Armand's Pizza Parlors 


x; = População уг= Vendas Vendas Erro Elevado 
Restaurante Estudantil Trimestrais (em Previstas Erro ao Quadrado 
i (em milhares) milhares de dólares) j= 60 + 5x; у;-–ӱ; (y, - y» 

! 2 58 70 -12 144 
2 6 105 90 15 225 
3 8 88 100 -12 144 
4 8 118 100 18 324 
5 12 117 120 -3 9 
6 16 137 140 3 9 
7 20 157 160 -3 9 
8 20 169 160 9 81 
9 22 149 170 21 441 
10 26 202 190 12 144 
SSE = 1.530 


Tabela 12.4 Cálculo da soma total dos quadrados para os restaurantes Armand's Pizza Parlors 


x; = População у; = Vendas Desvio Elevado 
Restaurante Estudantil Trimestrais (em Desvio ао Quadrado 

і (em milhares) milhares de dólares) Yi-Y (y; - 5? 
| 2 58 -72 5.184 
2 6 105 -25 625 
3 8 88 42 1.764 
4 8 118 -12 144 
5 12 117 -13 169 
6 l6 137 7 49 
7 20 157 27 729 
8 20 169 39 1.521 
9 22 149 19 361 
10 26 202 72 5.184 
55Т = 15.730 


A Tabela 12.2 indica que, para os dados de vendas, Xy; = 1.300. Portanto, o valor médio das vendas tri- 
mestrais para a amostra de dez restaurantes Armand's é ў = Хуп = 1.300/10 = 130. Na Tabela 12.4, mos- 
tramos a soma dos desvios elevados ao quadrado, obtida usando-se a média amostral ў = 130 para estimar 
o valor das vendas trimestrais correspondentes a cada restaurante da amostra. Em relação ao i-ésimo restau- 
rante da amostra, a diferença y; — y fornece a medida do erro envolvido no uso de y para estimar as vendas. 
A soma dos quadrados correspondente, denominada soma total dos quadrados (total sum of squares), é 
designada por SST. 
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SOMA TOTAL DOS QUADRADOS 
SST = X(y, - ў} (12.9) 


A soma na parte inferior da ültima coluna da Tabela 12.4 é a soma total dos quadrados do exemplo dos 
restaurantes Armand's Pizza Parlors; ou seja, SST — 15.730. 

Na Figura 12.5, mostramos a reta de regressão estimada ĵ = 60 + 5x e a reta correspondente a y = 130. 
Observe que os pontos se agrupam mais estreitamente em torno da reta de regressáo estimada do que nas 
proximidades da reta y = 130. Por exemplo, em ге!асйо ao décimo restaurante da amostra, notamos que 
o erro é muito maior quando ӯ = 130 é usado como uma estimativa de уу, do que quando jo = 60 + 5(26) 
= 190 é usado. Podemos imaginar a SST como uma medida de quão satisfatoriamente as observações se 
agrupam nas proximidades na reta ӯ. 

Para medir quanto os valores de j na reta de regressão estimada se afastam de y, outra soma de qua- 
drados é calculada. Essa soma de quadrados, denominada soma dos quadrados da regressão (sum of squa- 
res due to regression), é designada SSR. 


SOMA DOS QUADRADOS DA REGRESSÃO 
SSR = X($,— »Y . (12.10) 


Figura 12.5 Desvios nas proximidades reta de regressáo estimada e da reta у = y para 
Os restaurantes Armand's Pizza Parlors 


200 = no-fo(º 


Vendas Trimestrais (em milhares de dólares) 


у лз ү л id ] r1 rl 
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População Estudantil (em milhares) 


Da discussão anterior, devemos esperar que SST, SSR e SSE estejam relacionadas. De fato, a relação 
entre essas três somas de quadrados produz um dos resultados mais importantes em estatística. 


RELAÇÃO ENTRE SST, SSR E SSE 
SST = SSR + SSE (12.11) 


em que 


SST = soma total dos quadrados 
SSR = soma dos quadrados da regressão 
SSE = soma dos quadrados dos erros 
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A Equacáo 12.11 mostra que a soma total dos quadrados pode ser dividida em dois componentes: a 
soma dos quadrados da regressão e a soma dos quadrados dos erros. Portanto, se os valores de duas quais- 
quer dessas somas de quadrados forem conhecidos, a terceira soma de quadrados poderá ser calculada 
facilmente. Por exemplo, no caso dos restaurantes Armand's Pizza Parlors, já sabemos que SSE — 1.530 
e que SST — 15.730; portanto, resolvendo SSR na Equacáo 12.11, descobrimos que a soma dos quadra- 
dos da regressão é: 


SSR = SST — SSE = 15.730 — 1.530 = 14.200 


Vejamos agora como as três somas de quadrados, SST, SSR e SSE, podem ser usadas para fornecer 
uma medida da eficiência de ajuste da equação de regressão estimada. A equação de regressão estimada 
forneceria um ajuste perfeito se todo valor da variável dependente y; se situasse na reta de regressão esti- 
mada. Nesse caso, y; — 5, seria igual a zero para cada observação, resultando em SSE = 0. Uma vez que 
SST = SSR + SSE, notamos que para haver um ajuste perfeito SSR deve igualar-se a SST, e a razão 
(SSR/SST) deve ser igual a 1. Ajustes mais imperfeitos resultarão em valores maiores para SSE. 
Resolvendo SSE na Equação 12.11, notamos que SSE = SST — SSR. Portanto, o maior valor para SSE (e, 
daí, o pior ajuste) ocorre quando SSR = 0 e SSE = SST. 

A razão SSR/SST, a qual assumirá valores entre zero e 1, é usada para avaliar a eficiência de ajuste da 
equação de regressão estimada. Essa razão é chamada coeficiente de determinação e é designada por 72. 


COEFICIENTE DE DETERMINAÇÃO 
SSR 
2. 


= ЗЭХ 12.12 
TOU SST (12.12) 


Para o exemplo dos restaurantes Armand's Pizza Parlors, o valor do coeficiente de determinação é: 


› SSR 14200 
SST 15.730 


r = 0,9027 


Quando expressamos o coeficiente de determinação como uma porcentagem, r? pode ser interpretado 
como a porcentagem da soma total dos quadrados que pode ser explicada usando-se a equação de regres- 
são estimada. Em relação aos restaurantes Armand's Pizza Parlors, podemos concluir que 90,27% da soma 
total dos quadrados pode ser explicada usando-se a equação de regressão estimada ў = 60 + 5x para pre- 
ver as vendas trimestrais. Em outras palavras, 90,27% da variabilidade das vendas podem ser explicados 
por meio da relação linear existente entre o tamanho da população estudantil e as vendas. Ficaríamos satis- 
feitos em encontrar um ajuste tão bom para a equação de regressão estimada. 


Coeficiente de Correlação 


No Capítulo 3, apresentamos o coeficiente de correlação como uma medida da intensidade da associação 
linear entre duas variáveis, x e y. Os valores do coeficiente de correlação estão sempre entre -1 e +1. Um 
valor +1 indica que as duas variáveis x e y estão perfeitamente relacionadas em um sentido linear positi- 
vo. Ou seja, todos os pontos de dados estão em uma linha reta que tem uma inclinação positiva. Um valor 
—] indica que x e y estão perfeitamente relacionadas em um sentido linear negativo, com todos os pontos 
de dados em uma linha reta que tem uma inclinação negativa. Valores do coeficiente de correlação próxi- 
mos de zero indicam que x e y não estão linearmente relacionadas. 

Na Seção 3.5, apresentamos a equação para calcular o coeficiente de correlação da amostra. Se uma 
análise de regressão já tiver sido realizada e o coeficiente de determinação 7?, calculado, o coeficiente de 
correlação da amostra pode ser calculado da seguinte maneira: 


COEFICIENTE DE CORRELAÇÃO DA AMOSTRA 


у= (sinal de b pNCoeficiente de determinação 
= (sinal de by)VrZ (12.13) 
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em que 
b, = a inclinação da equação de regressão estimada y = bg + Бух 


O sinal do coeficiente de correlação da amostra será positivo se a equação de regressão estimada tiver 
uma inclinação positiva (b, > 0) e será negativo se a equação de regressão estimada tiver uma inclinação 
negativa (b, « 0). 

Em relação ao exemplo dos restaurantes Armand's Pizza Parlors, o valor do coeficiente de determina- 
ção correspondente à equação de regressão estimada $ = 60 + 5x é 0,9027. Uma vez que a inclinação 
da equação de regressão estimada é positiva, a Equação (12.13) mostra que o coeficiente de correlação da 
amostra é +Y0,9027 = +0,9501. Com um coeficiente de correlação da amostra igual а гу = + 0,9501, 
concluiríamos que existe uma forte associação linear positiva entre x e y. 

No caso de uma relação linear entre duas variáveis, tanto o coeficiente de determinação como o coefi- 
ciente de correlação da amostra fornecem medidas da intensidade da relação. O coeficiente de determina- 
ção fornece uma medida entre zero e 1, ao passo que o coeficiente de correlação da amostra fornece uma 
medida entre — e +1. Embora o coeficiente de correlação da amostra se restrinja a uma relação linear entre 
duas variáveis, o coeficiente de determinação pode ser usado para relações não lineares e para relações que 
têm duas ou mais variáveis independentes. Desse modo, o coeficiente de determinação fornece uma faixa 
mais ampla de aplicabilidade. 


NOTAS E COMENTÁRIOS 


1. Para desenvolver a equação de regressão estimada pelo método dos mínimos quadrados e calcular o coe- 
ficiente de determinação, não fizemos suposições probabilísticas à respeito do termo de erro e e não foi 
realizado nenhum teste estatístico quanto à significância da relação entre x e y. Valores maiores de г2 
implicam que a reta dos mínimos quadrados provê melhor ajuste para os dados; ou seja, as observações 
se agrupam mais estreitamente nas proximidades da reta dos mínimos quadrados. Mas, usando somen- 
te 72, não podemos tirar nenhuma conclusão a respeito de a relação entre x e y ser ou não ser estatistica- 
mente significativa. Essa conclusão deve basear-se em considerações que envolvem o tamanho da amos- 
tra e as propriedades da distribuição amostral apropriada dos estimadores mínimos quadrados. 

2. Na prática, para dados típicos encontrados nas ciências sociais, valores de r2 pequenos, de até 0,25, 
muitas vezes são considerados úteis, Para dados das ciências físicas e das ciências biológicas, valores 
de r2 iguais a 0,60 ou maiores freqüentemente são considerados úteis. Realmente, em alguns casos, 
valores de 7? superiores a 0,90 podem ser encontrados. Em aplicações de negócios, os valores de r2 
variam muito, dependendo das características particulares a cada aplicação. 


Exercícios 


Métodos 


15. Os dados do exercício 1 são os seguintes: 
x| i 2 3 4 5 
X13 7 5 ПП 14 
A equação de regressão estimada para esses dados é ? = 0,20 + 2,60x. 
a. Calcule SSE, SST e SSR usando as Equações 12.8, 12.9 e 12.10. 
b. Calcule o coeficiente de determinação 72. Comente a eficiência de ajuste. 
c. Calcule o coeficiente de correlação da amostra. 


16. Os dados do exercício 2 são os seguintes: 


x [2 3 5 1) 8 
» [5 25 20 30 “lê 


A equação de regressão estimada para esses dados é $ = 30,33 — 1,88x. 


a. Calcule SSE, SST e SSR. 
b. Calcule o coeficiente de determinação ғ2. Comente a eficiência de ajuste. 
c. Calcule o coeficiente de correlação da amostra. 
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17. 


Os dados do exercício 3 são os seguintes: 

х |2 4 5 7 8 

ylI2 3 2 6 4 
A equação de regressão estimada para esses dados é } = 0,75 + 0,51x. Qual porcentagem da soma 
total dos quadrados pode ser levada em conta pela equação de regressão estimada? Qual é o valor do 
coeficiente de correlação da amostra? 


Aplicações 


18. 


Os dados a seguir são os salários mensais y e o — grade point averages (GPA) — y de estudantes que 
obtiveram o diploma de bacharei em administração comercial com habilitação em sistemas de infor- 
mação. A equação de regressão estimada para esses dados é ў = 1.790,5 + 581,1x. 


GPA Salário Mensal (US$) GPA Salário Mensal (US$) 
26 3.300 32 3.500 
3,4 3.600 3,5 3.900 
3,6 4.000 29 3.600 


19. 


a, Calcule SST, SSR e SSE. 
b. Calcule o coeficiente de determinação ғ2. Comente a eficiência de ajuste. 
c. Qual é o valor do coeficiente de correlação da amostra? 


Os dados do exercício 7 são os seguintes: 


Marca e Modelo x = Confiabilidade y = Preço (US$) 

Acura TL 4 33.150 

BMW 330i 3 40.570 A 
Lexus 15300 5 35.105 ARQUIVO 
Lexus ES330 5 35.174 DA INTERNET 
Mercedes-Benz C320 1 42.230 

Lincoin LS Premium (V6) 3 38.225 Cars 
Audi A4 3.0 Quattro 2 37.605 

Cadillac CTS | 37.695 

Nissan Maxima 3.5 SE 4 34.390 

nfiniti 135 5 33.845 

Saab 9-3 Aero 3 36.910 

nfiniti G35 4 34.695 

aguar X-Type 3.0 1 37.995 

Saab 9-5 Arc 3 36.955 

Volvo S60 2.5T 3 33.890 


20. 


A equação de regressão estimada desses dados é y = 40.639 — 1.301x. Qual porcentagem da soma 
total de quadrados pode ser levada em conta pela equação de regressão estimada? Comente a eficiên- 
cia de ajuste. Qual é o coeficiente de correlação da amostra? 


A renda familiar típica e o preço típico das moradias referentes a uma amostra de 18 cidades são os 
seguintes (Places Rated Almanac, 2000). Os dados estão expressos em milhares de dólares. 


Cidade Renda Preço das casas 

Akron, OH 74,1 14,9 

Atlanta, СА 82,4 26,9 

Birmingham, AL 712 30,9 А 
Bismarck, ND 62,8 92,8 ARQUIVO 
Cleveland, OH 79,2 35,8 DA INTERNET 
Columbia, SC 66,8 16,7 iti 
Denver, CO 82,6 161,9 Su 
Detroit, MI 85,3 452 

Fort Lauderdale, FL 75,8 45,3 

Hartford, CT 89,1 62,1 

Lancaster, РА 752. 25,9 

Madison, WI 78,8 452 

Naples, FL 100,0 73.6 


5 NT: Grade Point Average (GPA) — Média de notas, média escolar. Uma medida numérica do rendimento académico baseada no 
cálculo do námero de créditos e notas obtidas em todas as matérias. Baseia-se em uma escala de 0 a 4. 
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Cidade Renda Preço das Casas 
Nashville, TIN 773 125,9 
Philadelphia, PA 87,0 151,5 
Savannah, GÀ 67,8 108,1 
Toledo, OH 712 101,1 
Washington, ОС 97,4 191,9 


21. 


а. Com esses dados, desenvolva uma equação de regressão estimada que possa ser usada para estimar 
o preço típico das moradias de uma cidade, dada a renda familiar típica. 

b. Calcule r2, Você se sentiria à vontade em usar essa equação de regressão estimada para estimar o 
preço típico de uma moradia em uma cidade? 

c. Estime a preço típico de uma moradia em uma cidade que tem a renda familiar típica de 
US$ 95 mil. 


Uma importante aplicação da análise de regressão na contabilidade é a estimação do custo. Ao cole- 
tar dados sobre volume e custo e usar o método dos mínimos quadrados para desenvolver uma equa- 
ção de regressão estimada relacionando volume e custo, um contador pode estimar o custo associado 
a um volume de manufatura em particular. Considere a seguinte amostra de volumes de produção e 
os dados de custos totais referentes a uma operação de manufatura. 


Volume de Produção (unidades) Custos Totais (US$) 
400 4.000 
450 5.000 
550 5.400 
600 5.900 
700 6.400 
750 7.000 


22. 


a. Com esses dados, desenvolva uma equação de regressão estimada que possa ser usada para prever 
o custo total de determinado volume de produção. 

b. Qual é o custo variável por unidade produzida? 

c. Calcule o coeficiente de determinação. Qual porcentagem da variação no custo total pode ser expli- 
cada pelo volume de produção? 

d. O programa de produção da empresa mostra que 500 unidades devem ser produzidas no próximo 
mês. Qual é o custo total estimado para essa operação? 


A revista PC World divulgou avaliações das cinco melhores impressoras a laser para pequenos escri- 
tórios e cinco impressoras a laser para corporações (PC World, fevereiro de 2003). A impressora a 
laser para pequenos escritórios mais bem classificada foi a Minolta-QMS PagePro 1250W, com uma 
avaliação global igual a 91. A impressora a laser para corporações mais bem classificada, a Xerox 
Phaser 4400/N, obteve uma avaliação global igual a 83. Os dados a seguir revelam a velocidade de 
impressão de texto simples em termos de páginas por minuto (ppm) e o preço de cada impressora. 


Marca Tipo Velocidade(ppm) Preço ($) 
Minolta-OMS PagePro 1250W Pequeno Escritório 12 199 
Brother HL-1850 Pequeno Escritório 10 499 
Lexmark E320 Pequeno Escritório 122 299 
Minolta-OMS PagePro 1250E Pequeno Escritório 10,3 299 
HP Laserjet 1200 Pequeno Escritório EA 399 
Xerox Phaser 4400/N Corporativa 17,8 1.850 
Brother HL-2460N Corporativa 16,1 1.000 
ІВМ Infoprint 1120n Corporativa 11,8 ` 1.387 
Lexmark W812 Corporativa 19,8 2.089 
Oki Data 88300n Corporativa 28,2 2.200 


a. Desenvolva a equação de regressão estimada, sendo a velocidade a variável independente. 

b. Calcule 72. Qual porcentagem da variação de custo pode ser explicada pela velocidade da impressora? 

c. Qual é o coeficiente de correlação amostral entre velocidade e preço? Ele reflete uma relação forte 
ou fraca entre a velocidade de impressão e o custo? 
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12.4 SUPOSIÇÕES DO MODELO 


Ao realizar uma análise de regressão, inicie fazendo uma suposição sobre o modelo apropriado para a rela- 
ção entre a(s) variável(is) dependente(s) e independente(s). Para o caso de uma regressão linear simples, 
o modelo de regressão suposto é: 


у= В+ Вх + є 


Então, о método dos mínimos quadrados é usado para desenvolver valores para by e b, os quais são as esti- 
mativas dos parámetros modelo fj, e £4, respectivamente. A equação de regressão estimada resultante é: 


ў = by + bx 


Vimos que o valor do coeficiente de determinação (r?) é uma medida da eficiência de ajuste da equa- 
ção de regressão estimada. Entretanto, mesmo com um valor grande de r2, a equação de regressão estima- 
da não deve ser usada enquanto não se fizer uma análise adicional da adequabilidade do modelo suposto. 
Uma etapa importante para determinar se o modelo suposto é apropriado envolve testar a significância da 
relação. Os testes de significância na análise de regressão baseiam-se nas seguintes suposições sobre o 
termo de erro e. 


SUPOSIÇÕES SOBRE O TERMO DE ERRO є NO MODELO DE REGRESSÃO 


»=Bo+Bx+te 


1. O termo de erro e é uma variável aleatória com uma média, ou valor esperado, igual a zero; ou seja, 
Ele) = 0. 
Implicação: Во е B, são constantes; por conseguinte, Eo) = Bo e E(B) = 8|, desse modo, рага 
dado valor de x, o valor esperado de y é 

EO) = Bo + Bx (12.14) 

Conforme indicamos anteriormente, a Equação 12.14 é chamada equação de regressão. 

2. A variância de e, designada por 02, é a mesma para todos os valores de x. 
Implicação: A variância de y nas proximidades da reta de regressão é igual a 0? e é a mesma para 
todos os valores de x. 

3. Os valores de € são independentes. 
Implicação: O valor de є para um valor em particular de x não está relacionado ao valor de є para 
qualquer outro valor de x; assim, o valor de y para um valor em particular de x não está relacionado 
com o valor de y para qualquer outro valor de x. 

4. О termo de erro є é uma variável aleatória normalmente distribuída. 


Implicação: Uma vez que y é uma função linear de e, y também é uma variável aleatória normal- 
mente distribuída. 


A Figura 12.6 ilustra as suposições de modelo e suas implicações; observe que, nesta interpretação grá- 
fica, o valor de E(y) se modifica de acordo com o valor específico considerado de x. Entretanto, indepen- 
dentemente do valor de x, a distribuição de probabilidade de e e, portanto, as distribuições de probabilida- 
de de y em qualquer ponto em particular depende de o valor real de y ser maior ou menor que E(y). 

Neste ponto, devemos ter em mente que também estamos fazendo uma suposição ou hipótese sobre a 
forma da relação entre x e y. Ou seja, supomos que a linha reta representada por f, + fx seja a base para 
a relação entre as variáveis. Não devemos desconsiderar o fato de que algum outro modelo, por exemplo, 
y = flo + By? + e, possa vir a ser um modelo melhor para a relação em questão. 
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Figura 12.6 Suposições referentes ao modelo de regressão 


Distribuição de 
Distribuição de yemx = 30 
yemx = 20 


Distribuição de 


E) = &+ Ax 
х=30 


Nota: As distribuições de y têm а 
mesma forma em cada valor de x. 


12.5 TESTE DE SIGNIFICÂNCIA 


Em uma equação de regressão linear simples, a média, ou valor esperado, de y é uma função linear de x: 
E(y) = fo + Вух. Se o valor de b, for zero, EO) = Во + (0)x = б. Nesse caso, o valor médio de y nào 
depende do valor de x e, portanto, concluiríamos que x e y nào estáo linearmente relacionados. Alterna- 
tivamente, se o valor de 2, não for igual a zero, concluiríamos que as duas variáveis estão relacionadas. 
Desse modo, para testar se uma relação de regressão é significativa, devemos realizar um teste de hipóte- 
ses para determinar se o valor de fj; é zero. Dois testes comumente são usados. Ambos requerem uma esti- 
mativa de 02, que é a variância de e no modelo de regressão. 


Estimativa de o? 


Do modelo de regressão e de sua suposição, podemos concluir que 02, a variância de є, também represen- 
ta a variáncia dos valores de y nas proximidades da reta de regressáo. Lembre-se de que os desvios dos 
valores de y nas proximidades da reta de regressão são chamados resíduos. Assim, SSE,'a soma dos qua- 
drados dos resíduos, é uma medida da variabilidade das observações reais em torno da reta de regressão 
estimada. O erro médio quadrático (MSE) fornece a estimativa de 02; ele é o SSE dividido por seus graus 
de liberdade. 

Com ӯ; = Бо + Бух, SSE pode ser escrito como: 


SSE = (у, - 3) = Z(y; — b, - by 


Toda soma de quadrados está associada a um nümero que é conhecido como seus graus de liberdade. Os 
estatísticos demonstraram que a SSE tem n — 2 graus de liberdade porque dois parámetros (8, e 3) devem 
ser estimados para que se possa calcular SSE. Dessa forma, a média quadrática é calculada dividindo-se 
SSE por n — 2. O MSE produz um estimador sem viés de 02. Uma vez que o valor de MSE produz uma 
estimativa de o?, a notação 02 também é usada. 
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ERRO MÉDIO QUADRÁTICO (ESTIMATIVA DE о?) 


E 
52 = МЅЕ = 55 
n-2 


(12.15) 


Na Seção 12.3, mostramos que, para o exemplo dos restaurantes Armand's Pizza Parlor, SSE = 1.530; 
portanto, ` 
1.530 


52 = МЅЕ = "um = 191,25 


fomece uma estimativa sem viés de 02. 
Para estimar s, extraímos a raiz quadrada de s2. O valor resultante, s, denomina-se erro padrão da 
ERRO PADRÃO DA ESTIMATIVA 


estimativa. 
| Е 
s = VMSE = 35 А (12.16) 


Para о exemplo dos restaurantes Armand's Pizza Parlors, s = VMSE = V191.25 = 13.829. Na discus- 
são a seguir, usaremos o erro padrão da estimativa nos testes de uma relação significativa entre x e y. 


Teste t 


O modelo de regressão linear simples é y = f + Вух + є. Se x e y estão linearmente relacionados, deve- 
mos ter В; # 0. O propósito do teste t é verificar se podemos concluir que 8, # 0. Usaremos os dados 
amostrais para testar a seguinte hipótese a respeito do parámetro fj. 


Н: В, = 0 
Не: В, + 0 


Se Не for rejeitada, concluiremos que f, = 0 e que existe uma relação estatisticamente significativa 
entre as duas variáveis. Entretanto, se Не não puder ser rejeitada, teremos evidências insuficientes para 
concluir que existe uma relação significativa. As propriedades da distribuição amostral de b,, o estimador 
por mínimos quadrados de [;, constituem a base para o teste de hipóteses. 

Em primeiro lugar, vamos considerar o que aconteceria se usássemos uma amostra aleatória diferente 
para o mesmo estudo de regressão. Por exemplo, suponha que a gerência do Armand's Pizza Parlors usas- 
se os registros de vendas de uma amostra diferente de dez restaurantes. Uma análise de regressão dessa 
nova amostra poderia resultar em uma equação de regressão estimada similar à nossa equação de regres- 
são estimada anterior, ў = 60 + 5x. Entretanto, é duvidoso que obteríamos exatamente a mesma equação 
(com uma interseção exatamente igual а 60 e uma inclinação exatamente igual a 5). De fato, by e bi, os 
estimadores por mínimos quadrados, são estatísticas amostrais que possuem suas próprias distribuições 
amostrais. As propriedades da distribuição amostral de b, são as seguintes: 


DISTRIBUIÇÃO AMOSTRAL DE 5, 
Valor Esperado 
Elb) = В, 
Desvio Padrão 
g 


Forma da Distribuição 
Normal 


(12.17) 


Observe que o valor esperado de b, é igual a В); então, b, é um estimador sem viés de £}. 
Visto que não conhecemos o valor de о, desenvolvemos uma estimativa de 0, , designada зь, estiman- 
do o com s na Equação 12.17. Desse modo, obtemos a seguinte estimativa de 0, : 
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O desvio padráo 
de b, é também 
chamado erro 
padrão de b. 
Desse modo, 35, 
fornece uma 
estimativa do erro 
padrão de bj. 


Os Apéndices 

12.1 e 12.2 
mostram como o 
Minitab e o Excel 
podem ser usados 
para 

calcular o valor p. 
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DESVIO PADRÃO ESTIMADO DE b, 
5 


= === 12.18 
^ sS ui 


Para os restaurantes Armand's Pizza Parlors, s = 13,829. Portanto, usando X(x, — X? = 568, como mos- 
trado na Tabela 12.2, obtemos: ` 


_ 13,829 


5 = 0,5803 
^ — V568 


como o desvio padrão estimado de b4, 
O teste г de uma relação significativa baseia-se no fato de a estatística de teste 


dB 


Зь 


seguir uma distribuição t com n — 2 graus de liberdade. Se a hipótese пша for verdadeira, então 8, = 0 e 
t = by/s,. 

Vamos realizar esse teste de significância para os restaurantes Armand's Pizza Parlors no nível de sig- 
nificância a = 0,01. A estatística de teste é: 


A tabela de distribuição г mostra que, sendo n — 2 = 10 — 2 = 8 graus de liberdade, £ = 3,355 forne- 
ce uma área igual a 0,005 na cauda superior. Desse modo, a área na cauda superior da distribuição f cor- 
respondente à estatística de teste г = 8,62 deve ser menor que 0,005. Uma vez que esse teste é um teste 
bicaudal, duplicamos esse valor e concluímos que o valor р associado a £ = 8,62 deve ser menor que 
2(0,005) — 0,01. O Minitab ou o Excel apresentam o valor p — 0,000. Visto que o valor p é menor que a 
= 0,01, rejeitamos Но e concluímos que 8, não é igual a zero. Essa evidência é suficiente para concluir- 
mos que existe uma relação significativa entre a população de estudantes e as vendas trimestrais. Um resu- 
mo do teste + da significância na regressão linear simples é apresentado a seguir: 


TESTE t DE SIGNIFICÂNCIA NA REGRESSÃO LINEAR SIMPLES 


Ну В, = 0 
Hy В, + 0 
ЕЅТАТЇЅТІСА DE TESTE 
b 
= = (12.19) 
So 
REGRA DE REJEIÇÃO 
Critério do valor p: Rejeitar Ho se o valor p = a 


Critério do valor crítico: Кејейаг Hg se t = -tap ou set = tap 


em que ѓу se baseia em uma distribuição t com n — 2 graus de liberdade. 


Intervalo de Confiança de f, 
A forma de um intervalo de confiança de f, é a seguinte: 
b, E tanss, 


O estimador por ponto é b, e a margem de erro é £s, . O coeficiente de confiança associado com esse 
intervalo é 1 — а, e tgp é o valor de г que fornece uma área igual a а/2 na cauda superior de uma distribui- 
ção t com n — 2 graus de liberdade. Por exemplo, suponha que quiséssemos desenvolver uma estimação 
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por intervalo de confiança de В para os restaurantes Armand's Pizza Parlors. Na Tabela 2 do Apêndice В, 
descobrimos que o valor t correspondente a а = 0,01еп—2 = 10—2 = 8 graus de liberdade é 75955 = 
3,355. A estimação por intervalo de confiança de f, é: 


by djs, = 5 + 3,355(0,5803) = 5 + 1,95 


ou 3,05 a 6,95. 
Ao usar o teste г de significância, as hipóteses testadas foram: 
Н: В, = 0 
Нә: В, + 0 


Ao nível de significância а = 0,01, podemos usar o intervalo de confiança de 99% como uma alternativa 
para chegar à conclusáo do teste de hipóteses referente aos dados dos restaurantes Armand's Pizza Parlors. 
Desde que 0, o valor hipotético de £}, não esteja incluído no intervalo de confiança (3,05 a 6,95), pode- 
mos rejeitar Ное concluir que existe uma relação estatística significativa entre o tamanho da população de 
estudantes e as vendas trimestrais. Em geral, um intervalo de confiança pode ser usado para testar qual- 
quer hipótese bilateral a respeito de £}. Se o valor hipotético de f; estiver contido no intervalo de confian- 
ça, não rejeite Ho. Caso contrário, rejeite Ho. 


Teste F 


Um teste F, baseado na distribuição F de probabilidade, também pode ser usado para testar a significân- 
cia na regressão. Com somente uma variável independente, o teste F fornecerá a mesma conclusão que o 
teste /; ou seja, se o teste t indicar que В; # 0 e, portanto, uma relação significativa, o teste F também indi- 
cará uma relação significativa. Entretanto, com mais de uma variável independente, somente o teste F pode 
ser usado para testar uma relação significativa global, 

A lógica subjacente ao uso do teste F para determinar se a relação de regressão é estatisticamente sig- 
nificativa baseia-se no desenvolvimento de duas estimativas independentes de 02. Explicamos como o 
MSE fornece uma estimativa de 02. Se a hipótese nula Hy: В, = O for verdadeira, a soma dos quadrados 
da regressão, SSR, dividida por seus graus de liberdade, produzirá outra estimativa independente de g?. 
Essa estimativa denomina-se quadrado médio devido à regressão, ou simplesmente regressão pela média 
quadrática (mean square regression), e é designada MSR. Em geral, 


SSR 
Graus de liberdade da regressão 


MSR = 


Quanto aos modelos que consideramos neste livro, os graus de liberdade da regressão são sempre 
iguais ao número de variáveis independentes que há no modelo: 


SR Z 
MSR Número de variáveis independentes (12.20) 


Uma vez que, neste capítulo, consideramos somente modelos de regressão com uma variável independen- 
te, obtemos MSR = SSR/1 = SSR. Portanto, para os restaurantes Armand's Pizza Parlors, MSR = SSR = 
14.200. 

Se a hipótese nula (Ho: = 0) for verdadeira, MSR e MSE são duas estimativas independentes de o? 
e a distribuição amostral de MSR/MSE segue uma distribuição F, sendo o grau de liberdade do numera- 
dor igual a 1 e os graus de liberdade do denominador iguais a n — 2. Portanto, quando f = 0, o valor de 
MSR/MSE deve estar próximo de 1. Entretanto, se a hipótese nula for falsa (8, # 0), MSR superestima- 
rá о? e o valor de MSR/MSE será inflacionado; deste modo, valores grandes de MSR/MSE levam à rejei- 
ção de Нуе à conclusão de que a relação entre x e у é estatisticamente significativa. 

Vamos concluir o teste F para o exemplo dos restaurantes Armand's Pizza Parlors. A estatística de teste é: 


MSR _ 14200 
MSE 19125 


= 74,25 
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Na Seção 10.4, 
mostramos como 
determinar um 
valor p usando a 
tabela de 
distribuição Р. 
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О teste Feo teste 
t produzem 
resultados 
idénticos para a 
regressáo linear 
simples. 


Se Ho for falsa, 
MSE ainda assim 
fornecerá uma 
estimativa sem viés 
de 02 е MSR 
superestimará g2. 
Se Ho for verda- 
deira, tanto MSE 
como MSR 
fornecem 
estimativas sem 
viés de g}; nesse 
caso, o valor de 
MSR/MSE deve 
ser próximo de 1. 


Em toda tabela de 
análise de 
variância, a soma 
total dos 
quadrados é o 
somatório da 
soma de 
quadrados pela 
regressão e a 
soma de 
quadrados dos 
erros; além disso, 
o total dos graus 
de liberdade é a 
soma dos graus de 
liberdade da 
regressão e dos 
graus de liberdade 
dos erros. 


A análise de 
regressão, a qual 
pode ser usada 
para identificar 
como as variáveis 
estão associadas 
entre si, não pode 
ser usada como 
evidência de uma 
relação de causa e 
efeito. 
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A tabela de distribuição F (Tabela 4 do Apêndice B) mostra que com um grau de liberdade no numerador 
en-2=10-2= 8 graus de liberdade no denominador, Р = 11,26 fornece uma área igual a 0,01 na cauda 
superior. Desse modo, a área na cauda superior da distribuição F correspondente à estatística de teste F = 
74,25 deve ser menor que 0,01. Assim, concluímos que o valor p deve ser menor que 0,01. O Minitab ou o 
Excel apresentam o valor p = 0,000. Uma vez que o valor p é menor que а = 0,01, rejeitamos Ну e con- 
cluímos que existe uma relacáo significativa entre o tamanho da populacáo estudantil e as vendas trimes- 
trais. Um resumo do teste F de significáncia na regressáo linear simples é apresentado a seguir. 


TESTE f DE SIGNIFICÂNCIA NA REGRESSÃO LINEAR SIMPLES 


Hy В, = 0 
Нә: Ву *0 
ESTATÍSTICA DE TESTE 
MSR 
Е=—— 12.21 
MSE ( ) 
REGRA DE REJEIÇÃO 
Critério do valor p: Rejeitar Ho se o valor p = а 
Critério do valor crítico: Rejeitar Hj se F > Fa 


em que F, se baseia em uma distribuição F com um grau de liberdade no numerador e п — 2 graus de 
liberdade no denominador. 


No Capítulo 10, abordamos a análise de variáncia (ANOVA) e mostramos como uma tabela ANOVA 
poderia ser usada para produzir um resumo conveniente dos aspectos computacionais da análise de varián- 
cia. Uma tabela ANOVA idéntica pode ser usada para resumir os resultados do teste F de significáncia na 
regressão. A Tabela 12.5 é a forma geral da tabela ANOVA para a regressão linear simples. A Tabela 12.6 
é a tabela ANOVA com cálculos do teste F executados para o exemplo dos restaurantes Armand's Pizza 
Parlors. Regressão, Erro e Total são os rótulos das três fontes de variação, e SSR, SSE e SST aparecem 
como a soma de quadrados correspondente na coluna 2. Os graus de liberdade, 1 para SSR, n – 2 para SSE 
e n — 1 para SST, são apresentados na coluna 3. A coluna 4 contém os valores de MSR e MSE, e a colu- 
na 5 possui o valor de F = MSR/MSE. Quase todas as saídas de dados de computador sobre a análise de 
regressão incluem um resumo do teste F de significância no formato de tabela ANOVA. 


Tabela 12.5 Forma geral da tabela ANOVA para regressão linear simples 


Fonte de Variação Soma de Quadrados Graus de Liberdade Quadrado Médio F 
Regressão SSR | SSR _ MSR 
MSR = | F MSE 
Erro SSE n-2 MSE = SSE 
А n-2 
Total SST n=! 


Alguns Cuidados com a Interpretação dos Testes de Significância 


Rejeitar a hipótese nula Hg: 8, = 0 e concluir que a relação entre x e y é significativa não nos permite con- 
cluir que existe uma relação de causa e efeito entre x e y. A conclusão de que existe uma relação de causa 
e efeito somente é garantida se o analista puder fornecer algum tipo de justificativa teórica de que a rela- 
ção é realmente causal. 

No exemplo dos restaurantes Armand's Pizza Parlors, podemos concluir que há uma relação significa- 
tiva entre o tamanho da população estudantil x e as vendas trimestrais y; além disso, a equação de regres- 
são estimada ў = 60 + 5x fornece a estimativa da relação pelo método dos mínimos quadrados. Entretanto, 
não podemos concluir que quaisquer alterações na população estudantil x provocam alterações nas vendas 
trimestrais y simplesmente porque identificamos uma relação estatisticamente significativa. A conveniên- 
cia dessa conclusão de causa e efeito reserva-se como justificativa teórica de apoio e ao bom julgamento 
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da parte do analista. Os gerentes dos restaurantes Armand's achavam que um aumento da população estu- 
dantil fosse uma causa provável do aumento das vendas trimestrais. Desse modo, o resultado do teste de 
significância lhes possibilitou concluir que havia uma relação de causa e efeito. 

Além disso, simplesmente porque somos capazes de rejeitar Ho: 8; = 0 e demonstrar a significância 
estatística não nos possibilita concluir que a relação entre x e y seja linear. Podemos afirmar somente que 
x e y estão relacionados e que uma relação linear explica a parte significativa da variabilidade em y ao 
longo da faixa de valores de x observados na amostra. A Figura 12.7 ilustra essa situação. O teste de sig- 
nificância exige a rejeição da hipótese nula Ho: B, = O e leva à conclusão de que x e y são significativa- 
mente relacionados, mas a figura mostra que a relação real entre x e y não é linear, Não obstante a aproxi- 
mação linear oferecida por Ў = by + Бух ser boa ao longo da faixa de valores de x observados na amostra, 
ela torna-se fraca para valores de x fora desse intervalo. 


Tabela 12.6 Tabela ANOVA para o problema dos restaurantes Armand's Pizza Parlors 


Fonte de Variação Soma de Quadrados Graus de Liberdade Quadrado Médio F 
Regressão 14.200 | 14.200 (4200 14200 7425 
| 191,25 
Erro 1.530 8 1.530 — 19125 
8 
Total 15.730 9 


Figura 12.7 Exemplo de aproximação linear a uma relação não linear 
y 


O menor O maior 
valor de x valor de x 


intervalo de valores 
observados de x 


Dada uma relação significativa, devemos nos sentir confiantes em usar a equação de regressão estima- 
da para fazer previsóes correspondentes a valores de x dentro do intervalo dos valores de x observados na 
amostra. Em relação aos restaurantes Armand's Pizza Parlors, esse intervalo corresponde a valores de x 
entre 2 e 26. A menos que outras razões indiquem que o modelo é válido além dessa faixa, previsões fora 
do intervalo da variável independente devem ser feitas com cautela. Quanto aos restaurantes Armand's 
Pizza Parlors, desde que a relação de regressão foi considerada significativa ao nível de 0,01, devemos nos 
sentir confiantes em usá-la para prever as vendas para os restaurantes em que a população estudantil cor- 
respondente está entre 2 mil e 26 mil estudantes. 
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NOTAS E COMENTÁRIOS 


1. 


3. 


As suposições feitas a respeito do termo de erro (Seção 12.4) são o que possibilita os testes de signifi- 
cância estatística desta seção. As propriedades da distribuição amostral de b, e os subseqüentes testes 
te F decorrem diretamente dessas suposições. 


Não confunda significância estatística com significância prática. Com tamanhos de amostra muito 
grandes, resultados estatisticamente significativos podem ser obtidos para valores pequenos de Бу; nes- 
ses casos, deve-se tomar cuidado ao concluir que a relação tem significância prática. 

Um teste de significância de uma relação linear entre x e y também pode ser executado usando-se o 
coeficiente de correlação da amostra r,,. Com p,, designando o coeficiente de correlação populacional, 
as hipóteses são as seguintes: 


Не: ру = 0 
Н: Py FO 


Pode-se concluir que há uma relação significativa se Но for rejeitada. Os detalhes desse teste são for- 
necidos em livros mais avançados. Entretanto, os testes t е F apresentados anteriormente nesta seção 
fornecem o mesmo resultado que o teste de significância usando o coeficiente de correlação. Por con- 
seguinte, a realização de um teste de significância usando o coeficiente de correlação não é necessária 
se um teste f ou um teste F já tiverem sido realizados. 


Exercícios 


Métodos 


23. 


24. 


25. 


Os dados do exercício 1 são os seguintes: 
х | 1 2 3 4 5 
ж |3 7 5 п M 
a. Calcule o erro médio quadrático usando a Equação 12.15. 
b. Calcule o erro padrão da estimativa usando a Equação 12.16. 
c. Calcule o desvio padrão estimado de 5, usando a Equação 12.18. 
d. Use o teste t para testar as seguintes hipóteses (a = 0,05): 


Hy В, = 0 
Н»: Ву + 0 


€. Use o teste F para testar as hipóteses do item (d) no nível de significáncia 0,05. Apresente os resul- 
tados no formato de tabela de análise de variáncia. 
Os dados do exercício 2 são os seguintes: 
x|2 3 5 1 8 
Ji | 25 25 20 30 16 
a. Calcule o erro médio quadrático usando a Equação 12.15. 
b. Calcule o erro padrão da estimativa usando a Equação 12.16. 
c. Calcule o desvio padrão estimado de Б; usando a Equação 12.18. 
d. Use o teste t para testar as seguintes hipóteses (a = 0,05): 


Ho: В, = 
Hy В, #0 


e. Use o teste F para testar as hipóteses do item (d) no nível de significância 0,05. Apresente os resul- 
tados no formato de tabela de análise de variáncia. 


Os dados do exercício 3 sáo os seguintes: 
|2 4 5 7 8 
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a. Qual é o valor do erro padrão da estimativa? 
b. Verifique se há uma relação significativa usando o teste t. Use а = 0,05. 
c. Use o teste F para verificar se há uma relação significativa. Use а = 0,05. Qual é a sua conclusão? 


Aplicações 
26. No exercício 18, os dados sobre o grade point average (GPA) e os salários mensais foram os seguin- 
tes: 
GPA Salário Mensal (US$) GPA Salário Mensal (US$) 
26 3.300 3,2 3.500 
3,4 3.600 3,5 3.900 
3,6 4.000 29 3.600 


27. 


а. O teste t indica uma relação significativa entre o GPA e o salário mensal? Qual é a sua conclusão? 
Use a = 0,05. 

b. Verifique se há uma relação significativa usando o teste F. Qual é a sua conclusão? Use a = 0,05. 

c. Apresente a tabela ANOVA, 


A Outside Magazine testou dez diferentes modelos de mochilas day hikers e botas de excursão. Os 
dados a seguir apresentam a capacidade de resistência e o preço de cada modelo testado. A capacida- 
de de resistência foi medida usando-se uma escala de avaliação de:1 a 5, e a avaliação 1 designa a 
capacidade de resistência média e uma avaliação 5 designa uma resistência excelente (Outside 
Magazine Buyer's Guide, 2001). 


Fábrica e Modelo Capacidade de Resistência Preço (US$) 
Salomon Super Raid 2 120 
Merrell Chameleon Prime 3 125 
Teva Challenger 3 130 
Vasque Fusion GTX 3 135 
Boreal Maigmo 3 150 
L.L. Bean GTX Super Guide 5 189 
Lowa Kibo 5 190 
Asolo AFX 520 GTX 4 195 
Raichle Mt. Trail GTX 4 200 
Scarpa Delta SL M3 5 220 


28. 


29. 


30. 


а. Use esses dados para desenvolver uma equação de regressão estimada para estimar o preço de uma 
mochila day hiker e uma bota de excursão dada a avaliação da capacidade de resistência. 

b. No nível de significância 0,05, determine se a capacidade de resistência e o preço estão relacionados. 

c. Você se sentiria à vontade em usar a equação de regressão estimada desenvolvida no item (a) para 
estimar o preço de uma mochila day hiker ou de uma bota de excursão, dada a avaliação da capa- 
cidade de resistência? 

d. Estime o preço de uma mochila day hiker, com a avaliação de sua capacidade de resistência sendo 4. 


Consulte o exercício 10, em que uma equação de regressão estimada relacionando a pontuação de 
desempenho e a avaliação global de um PC notebook foi desenvolvida. No nível de significância de 0,05, 
teste se a pontuação de desempenho e a avaliação global estão relacionadas. Apresente a tabela ANOVA. 
Qual é a sua conclusão? 


Consulte o exercício 21, em que foram usados dados do volume de produção e de custo para desen- 
volver uma equação de regressão estimada relacionando o volume de produção e o custo de uma ope- 
ração de manufatura em particular. Use а = 0,05 para testar se o volume de produção está significa- 
tivamente relacionado com o custo total. Apresente a tabela ANOVA. Qual é a sua conclusão? 


Consulte o exercício 22, em que foram usados os seguintes dados para determinar se o preço de uma 
impressora está relacionado com a velocidade para imprimir textos simples (PC World, fevereiro de 2003). 


Marca Tipo Velocidade(ppm) Preço ($) 
Міпока-ОМ5 PagePro 1250W Pequeno Escritório 12 199 
Minolta-QMS PagePro 1250W Pequeno Escritório 12 199 
Brother HL-1850 Pequeno Escritório 10 499 
Lexmark E320 Pequeno Escritório 12,2 299 
Minolta-QMS PagePro 1250Е Pequeno Escritório 10,3 299 
HP Laserjet 1200 Pequeno Escritório 157 399 
Xerox Phaser 4400/N Corporativa 17,8 1.850 
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Marca Tipo Velocidade(ppm) Preço ($) 
Brother HL-2460N Corporativa 16,1 1.000 
ІВМ Infoprint 1 120n Corporativa 11,8 1.387 
Lexmark W812 Corporativa 19,8 2.089 
Oki Data 88300n Corporativa 282 2.200 


As evidências indicam uma relação significativa entre a velocidade de impressão e o preço? Realize 
o teste estatístico apropriado e declare sua conclusão. Use а = 0,05. 


31, Consulte o exercício 20, em que foi desenvolvida uma equação de regressão estimada relacionando a 
renda familiar típica e o preço típico de uma moradia. Teste se a renda familiar típica de uma cidade 
e o preço típico de uma moradia estão relacionados ao nível de significância 0,01. 


12.6 USANDO A EQUAÇÃO DE REGRESSÃO ESTIMADA 
PARA ESTIMAÇÃO E PREVISÃO 


Quando usamos o modelo de regressão linear simples estamos fazendo uma suposição sobre a relação 
entre x e y. Então, usamos o método dos mínimos quadrados para obter a equação de regressão linear sim- 
ples estimada. Se existir uma relação significativa entre x e y, e se o coeficiente de determinação mostrar 
que o ajuste é bom, a equação de regressão estimada será útil para estimação e previsão. 


Estimação por Ponto 


No exemplo dos restaurantes Armand's Pizza Parlors, a equação de regressão estimada $ = 60 + 5x forne- 
ce uma estimativa da relação entre o tamanho da população estudantil x e as vendas trimestrais y. Podemos 
usar a equação de regressão estimada para desenvolver uma estimação por ponto do valor médio de y para 
um valor em particular de x ou para prever um valor individual de y correspondente a determinado valor de 
x. Por exemplo, suponha que os gerentes dos restaurantes Armand's queiram uma estimação por ponto da 
média de vendas trimestrais de todos os restaurantes localizados nas proximidades de campi universitários 
que possuam 10 mil estudantes. Usando a equação de regressão estimada ў = 60 + 5x, notamos que para x 
= 10 (ou 10 mil estudantes), ? = 60 + 5(10) = 110, Desse modo, uma estimação por ponto da média das 
vendas trimestrais para todos os restaurantes localizados próximo a campi universitários com 10 mil estu- 
dantes é US$ 110 mil. 

Suponha agora que os gerentes do Armand's queiram prever as vendas relativas a um determinado res- 
taurante localizado próximo ao Talbot College, uma escola com 10 mil estudantes. Nesse caso, não estamos 
interessados no valor médio de todos os restaurantes localizados perto de campi universitários com 10 mil 
estudantes; estamos apenas interessados em prever as vendas trimestrais de um determinado restaurante. 
Ocorre que a estimação por ponto de um valor individual de y é a mesma estimação por ponto referente ao 
valor médio de y. Portanto, preveríamos vendas trimestrais de ў = 60 + 5(10) = 110, ou US$ 110 mil para 
esse restaurante em particular, 


Estimação por Intervalo 


A estimação por ponto não fornece nenhuma informação sobre a precisão associada a uma estimativa. Para 
tanto, precisamos desenvolver estimações por intervalo muito similares às dos Capítulos 8, 10 e 11. O pri- 
meiro tipo de estimação por intervalo, um intervalo de confiança, é uma estimação por intervalo do valor 
médio de y para determinado valor de x. O segundo tipo de estimação por intervalo, um intervalo de pre- 
visão, é usado quando queremos uma estimação por intervalo de um valor individual de y para determi- 
nado valor de x. À estimação por ponto do valor médio de y é similar à estimação por ponto de um valor 
individual de y. Porém, as estimações por intervalo que obtemos para os dois casos são diferentes. A mar- 
gem de erro é maior para um intervalo de previsão. 


Intervalo de Confiança do Valor Médio de y 


A equação de regressão estimada fornece uma estimação por ponto do valor médio de y para determinado 
valor de x. Para desenvolver o intervalo de confiança, usaremos a seguinte notação: 
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Xp = o valor em particular ou determinado da variável independente x 
Ур = o valor da variável dependente y correspondente ao x, dado 

Ep) = o valor médio ou esperado da variável dependente y correspondente ao x, dado 
ўр = bo + bjx, = a estimação por ponto de E(y,) quando x = х, 


Usando essa notação para estimar a média das vendas de todos os restaurantes Armand's localizados pró- 
ximo a um campus universitário com 10 mil estudantes, temos xy = 10, e EG,) designa o valor médio des- 
conhecido das vendas correspondentes a todos os restaurantes onde x, = 10. A estimação por ponto de 
Е(ур) é fornecida por ӯ, = 60 + 5(10) = 110. 

Em geral, não podemos esperar que 5% seja exatamente igual a E(y,). Se quisermos fazer uma inferên- 
cia sobre quão próximo у, está do verdadeiro valor médio E(y,), teremos de estimar a variância de Pp A 
fórmula para estimar a variância de 5,, dado хь, designada por 5, é: 


_ ғр 
4 = zh + E =a (12.22) 


A estimativa do desvio padrão de A é dada pela raiz quadrada da Equação 12.22. 


1, Gm 
в L——— 
ERA RT (12.23) 


Os resultados computacionais referentes ao Armand's Pizza Parlors da Seção 12.5 forneceram s = 
13,829. Com x, = 10,X= 14, e X(x; — Х)? = 568, podemos usar a Equação 12.23 para obter: 


1 (10-14)? 
10 568 
= 13,829 V0,1282 = 4,95 


5, = 13,829 


A expressão geral para um intervalo de confiança é o seguinte: 

A margem de erro 
associada a esta 
estimação de 
intervalo é 79 


INTERVALO DE CONFIANÇA DE E(y,) 
DEDI (12:24) 


em que o coeficiente de confiança é 1 — a e tp baseia-se em uma distribuição t com n — 2 graus 
de liberdade. 


Usando a Equagáo 12.24 para desenvolver um intervalo de confianga de 95% da média de vendas tri- 
mestrais de todos os restaurantes Armand's localizados próximos a campi universitários com 10 mil estu- 
dantes, precisamos do valor t para 0/2 = 0,025 e n = 2 = 10—2 = 8 graus de liberdade. Usando a Tabela 
2 do Apéndice B, obtemos гооо; = 2,306. Desse modo, com ӯ, = 110 e uma margem de erro de tafposs = 
2,306(4,95) = 11,415, a estimação por intervalo de confiança de 95% é: 


110 + 11,415 


Em termos de dólares, o intervalo de confiança de 95% da média das vendas trimestrais de todos os 
restaurantes próximos a campi universitários com 10 mil estudantes é US$ 110 mil + US$ 11.415. 
Portanto, o intervalo de confiança de 95% correspondente à média das vendas trimestrais quando a popu- 
lação estudantil é de 10 mil alunos varia de US$ 98.585 a US$ 121.415. 

Observe que o desvio padrão estimado de 3, dado pela Equação 12.23 é menor quando x, = X e a quan- 
tidade x, = x = 0. Nesse caso, o desvio padrão estimado de ў, torna-se: 


h N EE ү 
5,75. Убх, — ®)? Aa" 


Esse resultado implica que podemos fazer a melhor ou a mais precisa estimativa do valor médio de y 


quando quer que x, —x. Realmente, quanto mais distante x, estiver de x, maior x, — X se torna. Em con- 


458 


Estatística Aplicada à Administracáo e Economia 


seqüéncia, os intervalos de confiança do valor médio de y se tornarão mais amplos quanto mais x, se des- 
via de X. Esse padráo é mostrado graficamente na Figura 12.8. 


Intervalo de Previsáo para um Valor Individual de y 


Suponha que, em vez de estimar o valor médio das vendas correspondentes a todos os restaurantes 
Armand's, localizados nas proximidades de campi universitários com 10 mil estudantes, queiramos esti- 
mar as vendas correspondentes a um determinado restaurante, localizado próximo ao Talbot College, uma 
escola com 10 mil estudantes. Conforme observamos anteriormente, a estimação por ponto de 5,, o valor 
de y correspondente ao x, dado, é fornecida pela equação de regressão estimada 3, = bo + Бух,. Quanto ao 
restaurante do Talbot College, temos x, = 10, е as correspondentes vendas trimestrais previstas são 3, = 
60 + 5(10) = 110, ou US$ 110 mil. Note que esse valor é idêntico à estimação por ponto da média das 
vendas correspondentes a todos os restaurantes localizados nas proximidades de campi universitários com 
10 mil estudantes. 


Figura 12.8 Intervalos de confiança da média de vendas y a dados valores da população estudantil x 
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Para desenvolver um intervalo de previsão, devemos primeiramente determinar a variância associada 
ao uso de ĵ, como estimativa de um valor individual de y quando х = x,. Essa variância é composta da 
soma dos dois componentes seguintes: 


1, A variância dos valores individuais de y nas proximidades da média E(y,), uma estimativa da qual 
é dada por s2. 
2. A variância associada ao uso de ӯ, para estimar E(y,) , uma estimativa da qual ё dada por s. 


A fórmula para estimar a variância de um valor individual de yp, designada por sa É 


sia = 52 + 52 
» 


ind 
Ll 2/1 Gp — a 
sts F ta- 
a 
= sh * 1 + a2] (12.25) 
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Portanto, uma estimativa do desvio padrão de um valor individual de y, é dada por: 


1 =)? 
Sg = А+ Gp Td) 


"ub (12.26) 


Quanto aos restaurantes Armand's Pizza Parlors, o desvio padrão estimado correspondente à previsão 
de vendas para um restaurante específico, localizado perto de um campus universitário com 10 mil estu- 
dantes, é calculado da seguinte maneira: 


1 (10-14? 
ыы = 13,829 4/1 + — + 
Sina = 13,829 1 + 568 


13,829 V 1,1282 
= 14,69 


A expressão geral de um intervalo de previsão é a seguinte: 


INTERVALO DE PREVISÃO DE Yp 
Pp É tanina (12.27) 


em que o coeficiente de confiança é 1 — a e typ baseia-se em uma distribuição г com n — 2 
graus de liberdade. 


O intervalo de previsão de 95% relativo às vendas trimestrais no restaurante do Talbot College pode 
ser encontrado usando-se 19,925 = 2,306 е Sing = 14,69. Desse modo, com БА = 110 e uma margem de erro 
igual a £,5s;,4 = 2,306(14,69) = 33,875, o intervalo de previsão de 95% é: 


110 + 33,875 


Figura 12.9 Intervalos de confiança e de previsão de vendas y a dados valores da população estudantil x 
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Em termos de dólares, esse intervalo de previsão é US$ 110 mil + US$ 33.875 ou US$ 76.125 a 
US$ 143.875. Observe que o intervalo de previsáo para um restaurante em particular localizado próximo 
a um campus com 10 mil estudantes é mais amplo que o intervalo de confiança para a média de vendas de 
todos os restaurantes localizados próximo o campi com 10 mil estudantes. A diferença reflete o fato de ser- 
mos capazes de estimar o valor médio de y mais precisamente do que um valor individual de y. 

Tanto as estimações por intervalo de confiança como as estimações por intervalo de previsão são mais 
precisas quando o valor da variável independente é x, = x. As formas gerais dos intervalos de confiança e 
os intervalos de previsão mais amplos são mostrados juntos na Figura 12.9. 


Exercícios 


Métodos 


32. Os dados do exercício 1 são os seguintes: 


x; 1 2 3 4 5 
Ji 3 7 5. 11 14 
a. Use a Equação 12.23 para estimar o desvio padrão de $, quando x = 4. 
b. Use a Equação 12.24 para desenvolver um intervalo de confiança de 95% para o valor esperado de 
y quando x — 4. 
c. Use a Equação 12.26 para estimar o desvio padrão de um valor individual de y quando x = 4. 
d. Use a Equação 12.27 pata desenvolver um intervalo de previsão de 95% para y quando x = 4. 


33. Os dados do exercício 2 sáo os seguintes: 
x |2 3 5 1 8 
x» |25 .25 20 30 16 


а. Estime o desvio padráo de 5 quando x = 3. 

b. Desenvolva um intervalo de confiança de 95% para o valor esperado de y quando x = 3. 
c. Estime o desvio padrão de um valor individual de y quando x = 3. 

d. Estipule um intervalo de previsão de 95% para y quando x = 3. 


34. Os dados do exercício 3 são os seguintes: 
х; | 2 4 5 7 8 
» |2 3 2 6 4 


Desenvolva os intervalos de confiança e de previsão de 95% quando x = 3. Explique por que esses 
dois intervalos sáo diferentes. 


Aplicações 


35. No exercício 18, os dados sobre o grade average point (GPA) x e o salário mensal y produziram a 
equação de regressão estimada ў = 1.790,5 + 581,1x. 

a. Desenvolva um intervalo de confiança de 95% referente ao salário inicial médio de todos os estu- 
dantes com uma pontuação GPA igual a 3,0. 

b. Estabeleça um intervalo de previsão do salário inicial de Joe Heller, um estudante com um GPA 
igual a 3,0. 

36. No exercício 10, dados sobre a avaliação do desempenho (x) e a classificação geral (y) de computa- 
dores notebook forneceram a equação de regressão estimada ? = 51.819 + 0,1452x (PC World, feve- 
reiro de 2000). 

a. Realize uma estimação por ponto da classificação geral de um PC com uma avaliação de desem- 
penho igual a 200. 

b. Desenvolva um intervalo de confiança de 95% para a média de avaliação global de todos os PCs 
que obtiveram uma avaliação de desempenho igual a 200. 

c. Suponha que um novo PC desenvolvido pela Dell tenha uma avaliação de desempenho igual a 200. 
Desenvolva um intervalo de previsão de 95% para a avaliação global desse novo PC. 

d. Discuta as diferenças em suas respostas aos itens (b) e (c). 


Capítulo 12 Regressão Linear Simples 


37. No exercício 13, foram fornecidos dados sobre a renda bruta ajustada x e o valor das deduções deta- 


38. 


39. 


lhadas feitas pelos contribuintes. Os dados foram expressos em milhares de dólares. Com a equação 
de regressão estimada $ = 4,68 + 0,16x, a estimação por ponto de um nível razoável de deduções 
detalhadas para um contribuinte que tem uma renda bruta ajustada de US$ 52.500 é US$ 13.080. 


a. Desenvolva um intervalo de confiança de 95% do valor médio de deduções detalhadas para todos 
os contribuintes que tenham uma renda bruta ajustada de US$ 52.500. 

b. Faça uma estimação por intervalo de previsão de 95% do valor das deduções totais detalhadas para 
um contribuinte em particular que tem uma renda bruta ajustada de US$ 52.500. 

c. Se o contribuinte em particular citado no item (b) reivindicasse deduções totais detalhadas de 
US$ 20.400, seria justificável que o fiscal da Receita Federal requeresse uma auditoria? 

d. Use suas respostas do item (b) para dar ao fiscal da Receita Federal uma diretriz quanto ao valor 
de deduções totais detalhadas que um contribuinte com uma renda bruta ajustada de US$ 52.500 
deveria reivindicar antes que uma auditoria seja recomendada. 


Consulte o exercício 21, no qual foram usados dados sobre o volume de produção x e o custo total y 
para uma operação de manufatura em particular, para desenvolver uma equação de regressão estima- 
da $ = 1.246,67 + 7,6x. 


a. O programa de produção da empresa mostra que 500 unidades devem ser produzidas no próximo 
mês. Qual é a estimação por ponto do custo total para o próximo mês? 

b. Desenvolva um intervalo de previsão de 99% do custo total para o próximo mês. 

c. Se um relatório contábil de custos no fim do próximo mês mostrar que o custo de produção real 
durante o mês foi de US$ 6 mil, os gerentes devem preocupar-se em se sujeitar a esse elevado custo 
total durante o mês? Discuta. 


Quase todos os sistemas de light-railé nos Estados Unidos usam carros elétricos que circulam em tri- 
lhos construídos no nível das ruas. A Federal Transit Administration afirma que viajar pelo light-rail 
é um dos meios mais seguros, com um índice de acidentes de 0,99 por milhão de milhas-passageiro 
em comparação com 2,29 para os ônibus. Os dados a seguir apresentam os quilômetros de trilhos 
construídos е o número estimado de passageiros nos dias úteis nos seis sistemas de light-rail (USA 
Today, 7 de janeiro de 2003). 


Cidade Quilômetros de Trilhos Número Estimado de Passageiros (em milhares) 
Cleveland 24,14 15 
Denver 27,36 35 
Portland 61,15 8i 
Sacramento 33,79 3l 
San Diego 75,64 75 
San Jose 49,89 30 
St. Louis 54,71 42 


а. Use os dados para desenvolver uma equação de regressão estimada que possa ser usada para pre- 
ver o número de passageiros, dados os quilômetros de trilhos construídos. 

b. A equação de regressão estimada proporciona um bom ajuste? Explique. 

c. Desenvolva um intervalo de confiança de 95% para o número médio de passageiros em dias úteis 
para todos os sistemas de light-rail com 48,28 quilômetros de trilhos. 

d. Suponha que a cidade de Charlotte esteja considerando a construção de um sistema de light-rail 
com 48,28 km de trilhos, Desenvolva um intervalo de previsão de 95% correspondente ao número 
de passageiros em dias úteis para o sistema de Charlotte. Você acha que o intervalo de previsão que 
desenvolveu teria valor para os planejadores de Charlotte ao antecipar o número de viajantes nos 
dias úteis em seu novo sistema de light-rail? Explique. 


6 NT: Light-rail — Meio de transporte ferroviário urbano que usa bondes ou trens de pequeno porte. 
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12.7 SOLUCÁO COMPUTADORIZADA 


Realizar os cálculos da análise de regressão sem a ajuda de um computador pode consumir muito tempo. 
Nesta seção, discutiremos como o volume de cálculos pode ser minimizado usando-se um software de 
computador como o Minitab, 

Inserimos os dados correspondentes à população estudantil e às vendas trimestrais dos restaurantes 
Armand's em uma planilha do Minitab. A variável independente foi intitulada Pop e a variável indepen- 
dente foi chamada Sales para ajudar na interpretação do impresso de computador. Usando o Minitab, obti- 
vemos o impresso mostrado na Figura 12.10" relativo aos restaurantes Armand's Pizza Parlors. A interpre- 
tacáo desse impresso é a seguinte: 


1. O Minitab imprime a equação de regressão estimada como Sales (Vendas) = 60,0 + 5,00 Pop. 


2. É impressa uma tabela que exibe os valores do coeficiente bo е Ьу, o desvio padrão de cada coefi- 
ciente, o valor t obtido ao dividir-se cada coeficiente por seu desvio padrão, e o valor p associado 
a cada teste t. Uma vez que o valor p correspondente a b, = 5,0000 é zero (para três casas deci- 
mais), os resultados amostrais indicam que a hipótese nula (Hof, = 0) deve ser rejeitada. 
Alternativamente, poderíamos comparar 8,62 (localizado na coluna razão £) com o valor crítico 
apropriado. Esse procedimento para o teste t foi descrito na Seção 12.5. 


Figura 12.10 Saída de dados do Minitab para o problema dos restaurantes Armand's Pizza Parlors 


The regression equation is oro | 
Sales = 60.0 + 5.00 Pop + de regressáo estimada 
Р . Lo E q. a КАРЫШ ere CE" 
Predictor Coef SE Coef T P . . 
-Constant | 760.000 * 9.226 6.50 0.000 тогоо + a + * 
| Pop 5.0000 0.5803 8.62 0.000 
EN . ^ " v E - " n ч ЕШ Li * * L3 
| 5 = 13.83 R-sq = 90.3% R-sq(adj) = 89.1% . 
jo * > t uw оз о а = т йо к 
| „Analysis of Variance 
_ ача * dos z = эя б 
SOURCE DF 55 MS F p 


"Regression *1* 14200 '14200 74:25; 0.000, гг 
Residual Error 8 1530 191 1 | Tabela ANOVA 
Total і #9 15730 ^ Ся M і 4 
Predicted Values for New Observations * a » JS: 
^New ШЕ EE E zo oc a &OU 
Obs Fit SE Fit 95% C.I. 95$ P.T. 

1 110.00 4.95 ` (98.58, 121.42) (76.12, 143188) 


Lo 


are ee eo e ia M mi time ot e teia cdi 4 


зе чаш я ште 


3. O Minitab imprime o erro padrão da estimativa, s = 13,83, bem como a informação sobre a eficién- 
cia de ajuste. Observe que "R-sq = 90,3%” é o coeficiente de determinação expresso na forma de 
porcentagem. 

4. A tabela ANOVA é impressa abaixo do cabegalho Analysis of Variance. O Minitab usa o rótulo Residual 
Error (Erro Residual) para a fonte de erro de variação. Observe que DF é uma abreviação de degrees of 
freedom (graus de liberdade) e que MSR é dada como 14.200 e MSE como 191. A razáo desses dois 
valores fornece o valor F 74,25 e o valor p correspondente 0,000. Uma vez que o valor p é zero (para 
três casas decimais), a relação entre Sales e Pop é considerada estatisticamente significativa. 


* As etapas do Minitab necessárias para gerar a saída de dados (output) são apresentadas no Apêndice 12.1. 
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5. A estimação por intervalo de confiança de 95% das vendas esperadas e a estimação por intervalo de 
previsáo de 95% das vendas correspondentes a um restaurante individual, localizado próximo a um 
campus com 10 mil estudantes, estão impressas abaixo da tabela ANOVA.O intervalo de confiança 
é (98,58, 121,42) e o intervalo de previsão é (76,12, 143,88), conforme mostramos na Seção 12.6. 


Exercícios 


Aplicacóes 


40. A divisão comercial de uma empresa imobiliária está realizando uma análise de regressão da relação 


41. 


* SOURCE DF 55 
Regression 1 41587.3 
Residual Error 7 
Total 8 51984.1 


entre x, que são os aluguéis anuais brutos (em milhares de dólares), e y, o prego de venda (em milha- 
res de dólares) de prédios de apartamento. Os dados foram coletados de diversas propriedades vendi- 
das recentemente e a seguinte saída de computador foi obtida: 


The regression equation is 
Y = 20.0 + 7.21 X 


mm a ado E 


Predictor Coef SE Coef T | 
Constant 20.000 3.2213 6.21 
X 7.210 1.3626 5.29 t 


Analysis of Variance 


очы o nim ана 


а, Quantos prédios de apartamento constavam na amostra? 

b. Escreva a equação de regressão estimada. 

c. Qual é o valor de з? 

d. Use a estatística F para testar a significância da relação ao nível de significância 0,05. 

e. Estime o preço de venda de um prédio de apartamento com aluguéis anuais brutos de US$ 50 mil. 


Apresentamos a seguir uma parte da saída de dados de computador de uma análise de regressão que 


relaciona y = as despesas de manutenção (em dólares por mês) com x = o uso (em horas por sema- 
na) de uma marca em particular de terminal de computador. 


- " “a 
The regression equation is ` | 
Ү = 6.1092 + .8951 X 1 
Predictor Coef SE Coef } 
Constant 6.1092 0.9361 . 
X 0.8951 0.1490 1 


Analysis of Variance и 1 


SOURCE DF 55 М5 l 
Regression 1 1575.76 1575.76 i 
Residual Error 8 349.14 43.64 

Total 9 1924.90 


a, Escreva a equação de regressão estimada. 
b. Use o teste t para determinar se as despesas mensais de manutenção se relacionam com o uso ao 
nível de significância 0,05. 
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42. 


43. 


c. Use a equação de regressão estimada para prever as despesas mensais de manutenção de qualquer 
terminal que seja usado 25 horas por semana. 


Um modelo de regressão relacionando x, que é o número de vendedores em uma filial, com y, as ven- 


. das anuais nessa filial (em milhares de dólares), forneceu a seguinte saída de computador de uma aná- 


lise de regressão dos dados: 


ra EO ш С): а cr 2 pre is 


какы 


The regression equation is s ~ Po сё ш 
Y = 80.0 + 50.00 X 


Predictor Coef SE Coef T 


Constant H 80.0 , 11.333 7.06 © Дд k 
X 50.0 5.482 9.12 


Analysis of Variance 


” e 


SOURCE DF ss. MS 

Regression a 6828.6 . А 6828.6 , | 
Residual Error 28 2298.8 82.1 ` ' 
Total ,29 9127,4, 2o; 


re ae ro M —MÀÁ P P n 


a. Escreva a equação de regressão estimada. 

b. Quantos escritórios filiais estavam envolvidos no estudo? 

c. Calcule a estatística F e teste a significância da relação ao nível de significância 0,05. 

d. Preveja as vendas anuais no escritório filial de Memphis. Essa filial emprega 12 vendedores, 


Especialistas da área da Saúde recomendam que os corredores bebam 120 ml de água a cada 15 minu- 
tos de corrida. Não obstante as garrafas manuais funcionarem bem para muitos tipos de corrida, as 
corridas cross-country, que são feitas durante o dia inteiro, requerem sistemas de hidratação adapta- 
dos à cintura do atleta ou fixados aos ombros. Além disso, para carregar mais água, os sistemas adap- 
tados à cintura ou fixados aos ombros oferecem mais espaço de armazenagem para alimentos е rou- 
pas extras. À medida que a capacidade aumenta, entretanto, o peso e o custo desses sistemas de maior 
capacidade também aumentam. Os dados seguintes apresentam o peso (em gramas) e o preço de 26 
sistemas de hidratação que se adaptam à cintura ou que se fixam aos ombros do atleta (Trail Runner 
Gear Guide, 2003). 


Modelo Peso (gramas) Preço (US$) 
Fastdraw 85 — 10 
Fastdraw Plus 113 12 
Fitness 142 12 
Access 198 20 
Access Plus 227 25 
Solo 255 25 
Serenade 225 35 
Solitaire 312 35 
Gemini 595 45 
Shadow 425 40 
SipStream 510 60 
Express 255 30 
Lightning 340 40 
Elite 397 60 
Extender 454 65 
Stinger 454 65 
GelFlask Belt 85 20 
GelDraw 28 7 
GelFlask Clip-on Holster 56 to 
GelFlask Holster SS 28 10 


Strider (W) 227 30 


Capítulo 12 Regressáo Linear Simples 


Modelo Peso (gramas) Preço (US$) 
Walkabout (W) 397 40 
Solitude l.C.E. 255 35 
Getaway |.C.E. 539 55 
Profile 1.C.E. 397 50 
Traverse |.C.E. 367 60 


a. Use os dados para desenvolver uma equação de regressão estimada que possa ser usada para pre- 
ver o preço de um sistema de hidratação dado o seu peso. 

b. Teste a significância da relação ao nível de significância 0,05. 

c. A equação de regressão estimada proporcionou um bom ajuste? Explique. 

d. Suponha que a equação de regressão estimada desenvolvida no item (a) também se aplique a sis- 
temas de hidratação produzidos por outras empresas. Desenvolva uma estimação por intervalo de 
confiança de 95% do preço de todos os sistemas de hidratação que pesam 283 g. 

e. Suponha que a equação de regressão estimada desenvolvida no item (a) também se aplique a siste- 
mas de hidratação produzidos por outras empresas. Desenvolva uma estimação por intervalo de 
previsão do preço do sistema Back Draft produzido pela Eastern Mountain Sports. O sistema Back 
Draft pesa 283 g. 

44. A Cushman & Wakefield, Inc. coleta dados que mostram o índice de vagas em prédios de escritório 
е os preços de aluguel de estabelecimentos comerciais nos Estados Unidos. Os dados a seguir apre- 
sentam os índices gerais de vagas (%) e os preços médios de aluguel (por pé quadrado”) no centro 
comercial de 18 mercados selecionados. 


Índice Preço 
Mercado de Vagas (%) Médio (US$) 
Atlanta 21,9 8,54 
Boston 6,0 33,70 
Hartford 228 9,67 
Baltimore 8,1 21,01 
Washington 2,7 35,09 
Philadelphia 45 9,41 
Miami 20,0 2528 
Tampa 92 17,02 
Chicago 6,0 24,04 
San Francisco 6,6 31,42 
Phoenix 59 8,74 
San Jose 9,2 26,76 
West Palm Beach 97 27,72 
Detroit 20,0 8,20 
Brooklyn 83 25,00 
Downtown, NY 7,1 29,78 
Midtown, NY 0,8 37,03 
Midtown South, NY 1,1 28,64 


a. Desenvolva um diagrama de dispersáo desses dados. Trace o índice de vagas no eixo horizontal. 

b. Parece haver alguma relação entre os índices de vagas e os preços de aluguel? 

c. Desenvolva a equação de regressão estimada que possa ser usada para prever a média dos preços 
de aluguel, dado o índice global de vagas. 

d, Teste a significância da relação ao nível de significância 0,05. 

e. A equação de regressão estimada proporcionou um bom ajuste? Explique. 

f. Preveja o preço de aluguel esperado para mercados com um índice de vagas de 25% no centro 
comercial da cidade. 

g. O índice global de vagas no centro comercial de Ft. Lauderdale é 11,3%. Preveja o preço de alu- 
guel esperado para Ft. Lauderdale. 


7 NT: 1 pé quadrado — 929,03 cm quadrados. 


465 


ARQUIVO 
DA INTERNET 
OffRates 


466: 


^ análise residual 
é a principal 
ferramenta para 
determinar se o 
modelo de 
regressáo 
proposto é 
apropriado. 


Estatística Aplicada à Administração e Economia 


12.8 ANÁLISE RESIDUAL: VALIDANDO SUPOSICÓES DO MODELO 


Conforme observamos anteriormente, o resíduo da observação i é a diferença entre o valor observado da 
variável dependente (у,) e o valor estimado da variável dependente ($,). 


RESÍDUO DA OBSERVAÇÃO i 
»- 5 (12.28) 
em que 


y; = o valor observado da variável dependente 
ў; = o valor estimado da variável dependente 


Em outras palavras, o i-ésimo resíduo é o erro resultante de se usar a equação de regressão estimada para 
prever o valor da variável dependente, Os resíduos, no exemplo dos restaurantes Armand's Pizza Parlors, 
estão calculados na Tabela 12.7. Os valores observados da variável dependente estão na segunda coluna e os 
valores estimados da variável dependente, obtidos usando-se a equação de regressão estimada ў = 60 + 5x, 
estão na terceira coluna. Uma análise dos resíduos correspondentes na quarta coluna ajudará a determinar 
se as suposições feitas a respeito do modelo de regressão são apropriados. 

Vamos rever agora as suposições de regressão do exemplo dos restaurantes Armand's Pizza Parlors. 
Presumimos um modelo de regressão linear simples: 


у= В+ Вх + є (12.29) 


Esse modelo indica que as vendas trimestrais presumidas (у) são uma função linear do tamanho da popu- 
lação estudantil (x) mais um termo de erro e. Na Seção 12.4, fizemos as seguintes suposições sobre o termo 
de erro є. 


1. Е) = 0. 

2. А variância de є, designada рог 02, é idêntica para todas as variáveis de x. 
3. Os valores de e sáo independentes. 

4. O termo de erro є tem uma distribuição normal. 


Essas suposições constituem a base teórica para o teste ѓе para o teste F usados para determinar se a 
relação entre x e y é significativa, e para as estimações por intervalo de confiança e de previsão apresenta- 
das na Seção 12.6. Se as suposições sobre o termo de erro e parecerem questionáveis, os testes de hipóte- 
se sobre a significância da relação de regressão e os resultados da estimação por intervalo podem não ser 
válidos. А 

Os resíduos fornecem а melhor informação sobre є; portanto, uma análise dos resíduos é um passo 
importante para determinar se as suposições referentes а є são apropriadas. 

Grande parte da análise residual baseia-se em um exame das plotagens gráficas. Nesta seção, discuti- 
remos as seguintes plotagens residuais: 


Tabela 12.7 Resíduos referentes ao exemplo dos restaurantes Armand's Pizza Parlors 


População Estudantit Vendas Estimativa de Vendas Resíduos 
X Yi y; = 60 + 5х; Yi-Yi 
2 58 70 212 
6 105 90 15 
8 88 100 212 
8 118 100 18 
i2 17 120 23 
16 137 140 23 
20 157 160 23 
20 169 160 9 
22 149 170 221 


26 202 190 12 
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1. Uma plotagem dos resíduos em relação aos valores da variável independente x. 
2. Uma plotagem dos resíduos em relação aos valores previstos da variável independente 5. 


Plotagem Residual em Relação a x 


Uma plotagem residual em relação à variável independente x é um gráfico no qual os valores da variável 
independente são representados pelo eixo horizontal e os valores residuais correspondentes são represen- 
tados pelo eixo vertical. Para cada resíduo é marcado um ponto no gráfico. A primeira coordenada de cada 
ponto é dada pelo valor de x; e a segunda coordenada é dada pelo correspondente valor do resíduo y; — $i 
Para uma plotagem residual em relação a x com os dados dos restaurantes Armand's Pizza Parlors da 
Tabela 12.7, as coordenadas do primeiro ponto são (2, —12), correspondentes a x, = 2 e y; – ĵ;= —12; as 
coordenadas do segundo ponto são (6, 15), correspondentes a x, = 6 e y; — 957 15 e assim por diante. A 
Figura 12.11 apresenta a plotagem residual resultante. 

Antes de interpretar os resultados dessa plotagem residual, consideremos alguns padróes gerais que 
podem ser observados em qualquer plotagem residual. Trés exemplos aparecem na Figura 12.12. Se a 
suposição de que a variância de є é idêntica para todos os valores de x, e se o modelo de regressão propos- 
to constituir uma representação adequada da relação entre as variáveis, a plotagem residual deverá dar a 
impressão geral de uma faixa horizontal de pontos como os do Painel A da Figura 12.12. Entretanto, se a 
variância de є não for idêntica para todos os valores de x — por exemplo, se a variabilidade nas proximi- 
dades da reta de regressão for maior à medida que os valores de x se tornam maiores — um padrão como o 
do Painel B da Figura 12.12 poderá ser observado. Nesse caso, a hipótese de uma variância constante de 
€ é desrespeitada. Outra plotagem residual possível é mostrada no Painel C. Assim, concluiríamos que o 
modelo de regressão proposto não é uma representação adequada da relação entre as variáveis. Um mode- 
lo de regressão curvilínea ou um modelo de regressão múltipla deve ser considerado. 

Retornemos agora à plotagem residual dos restaurantes Armand's Pizza Parlors mostrada na Figura 
12.11. Os resíduos parecem aproximar-se do padrão horizontal do Painel A da Figura 12.12. Portanto, con- 
cluímos que a plotagem residual não nos fornece evidências de que as suposições feitas sobre o modelo 
de regressão do Armand's devam ser contestadas. 

A essa altura, estamos confiantes na conclusão de que o modelo de regressão linear simples para os 
restaurantes Armand's é válido. 


Figura 12.1 | Plotagem dos resíduos em relação à variável independente x para 
os restaurantes Armand's Pizza Parlors 
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Experiéncia e bom julgamento sáo sempre fatores importantes a serem considerados na interpretação 
eficiente das plotagens residuais. Raramente uma plotagem residual se molda de maneira precisa a um dos 


_ padrões apresentados na Figura 12.12. Contudo, analistas que realizam estudos de regressão com fregiiên- 


cia e revisam plotagens residuais repetidamente tornam-se especialistas em entender as diferenças entre os 
padrões que são razoáveis e os que indicam que as suposições do modelo devam ser questionadas. Uma plo- 
tagem residual constitui uma técnica para avaliar a validade das suposições de um modelo de regressão. 


Plotagem Residual em Relação аў 


Outra plotagem residual representa o valor residual da variável dependente ў no eixo horizontal e os valo- 
res residuais no eixo vertical. Para cada resíduo é marcado um ponto no gráfico. A primeira coordenada 
de cada ponto é dada por ў; e a segunda coordenada é dada pelo valor correspondente do i-ésimo resíduo 
»— Yi Com os dados do Armand's da Tabela 12.7, as coordenadas do primeiro ponto são (70, —12), cor- 
respondentes a ў; = 70 e y, — 9, = —12; as coordenadas do segundo ponto são (90, 15) e assim por dian- 
te. A Figura 12.13 apresenta a plotagem residual. Observe que o padráo dessa plotagem residual é idénti- 
co ao padrão da plotagem residual em relação à variável independente x. Esse não é um padrão que nos 
levaria a questionar as suposições do modelo. Para a regressão linear simples, tanto a plotagem residual e 
relação a x como a plotagem residual em relação a ӯ fornecem o mesmo padrão. Para a análise de regres- 
são múltipla, a plotagem residual em relação а ў é mais amplamente usada em virtude da presença de mais 
de uma variável independente. 


Figura 12.12 Plotagens residuais de três estudos de regressão 
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Figura 12.12 Plotagens residuais de trés estudos de regressáo 
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Figura 12.13 Plotagem dos resíduos em relação aos valores de y previstos рага 
os restaurantes Armand's Pizza Parlors 
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NOTAS E COMENTÁRIOS 


1. 


Utilizamos plotagens residuais para validar as suposições de um modelo de regressão. Se nossa revi- 
são indicar que uma ou mais suposições são questionáveis, um modelo de regressão diferente ou uma 
transformação dos dados devem ser considerados. As medidas corretivas apropriadas quando as supo- 
sições são desrespeitadas devem basear-se no bom julgamento; recomendações obtidas de um estatís- 
tico experiente podem ser valiosas. 

A análise de resíduos é o principal método que os estatísticos usam para verificar se as suposições asso- 
ciadas a um modelo de regressão são válidas. Mesmo que nenhuma infração seja encontrada, não 
decorre necessariamente que o modelo produzirá boas previsões. Entretanto, se testes estatísticos adi- 
cionais sustentarem a conclusão de significância e se o coeficiente de determinação for grande, sere- 
mos capazes de desenvolver boas estimativas e previsões usando a equação de regressão estimada. 
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Exercícios 


Métodos 


— 45. São dados os valores de duas variáveis, x e y: 
EA x [6 1 15 48 20 
AUTOTESTE nlé 8 12 20 3 


a, Desenvolva uma equação de regressão estimada desses dados. 

b. Calcule os resíduos. 

c. Desenvolva a plotagem dos resíduos em relação à variável independente x. As suposições sobre os 
termos de erro parecem ter sido cumpridas? 


46. Os dados a seguir foram usados em um estudo de regressão: 


Observação x; yi Observacáo X у 
| 2 4 6 7 6 
2 3 5 7 7 9 
3 4 4 8 8 5 
4 5 6 9 9 M 
5 7 4 


a. Desenvolva uma equação de regressão estimada desses dados. 
b. Construa uma plotagem dos resíduos. As suposições a respeito do termo de erro parecem ter sido 
cumpridas? 


Aplicações 


47. Dados sobre os dispêndios de publicidade e a receita (em milhares de dólares) do Four Seasons 
Restaurant são apresentados a seguir: 


ae Dispêndios de Publicidade Receita 
AUTOTESTE | 19 


2 32 
4 44 
6 40 

10 52 

14 53 

20 54 


a, Digamos que x sejam os dispéndios de publicidade e y seja о volume. Use o método dos mínimos 
quadrados para desenvolver uma aproximação em linha reta da relação entre as duas variáveis. 

b. Teste se a receita e os dispêndios de publicidade estão relacionados a um nível de significância de 0,05. 

c. Construa uma plotagem residual em relação à variável independente. 

d. Quais conclusões você é capaz de tirar da análise residual? Esse modelo deve ser usado ou um 
modelo melhor deve ser procurado? 


48. Consulte o exercício 9, em que uma equação de regressão estimada relacionando os anos de experiên- 
cia profissional e as vendas anuais foi desenvolvida. 


a. Calcule os resíduos e construa uma plotagem residual desse problema. 
b. As suposições a respeito do termo de erro parecem razoáveis em função da plotagem residual? 


49. Os American Depository Receipts (ADRs) são certificados negociados na Bolsa de Valores de Nova 
York (Nyse) representando ações de uma empresa estrangeira, as quais são mantidas em depósito em 
um banco de seu país de origem. A tabela a seguir exibe a razão preço/rendimentos (P/R) е o retorno 
percentual do investimento (ROI) correspondentes a dez empresas indianas que provavelmente são 
novas ADRs (Bloomberg Personal Finance, abril de 2000). 


Empresa Retorno do Investimento (ROI) Razão Preço/ Rendimento (P/R) 
Bharti Televentures 6,43 36,88 
Gujarat Ambuja Cements 13,49 27,03 
ARQUIVO Hindalco Industries 14,04 10,83 
DA INTERNET ICICI : 20,67 5,15 
ADRs Mahanagar Telephone Nigam 22,74 13,35 


NIIT 46,23 95,59 
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Empresa Retorno do Investimento (ROI) Razáo Preco/ Rendimento (P/R) 
Pentamedia Graphics 28,90 54,85 
Satyam Computer Services 54,01 18921 
Silverline Technologies 28,02 75,86 
Videsh Sanchar Nigam 27,04 13,17 


a. Use um software para desenvolver uma equação de regressão estimada relacionando y = P/R e 
х = ROL 

b. Construa uma plotagem residual em relação à variável independente, 

c. As suposições a respeito dos termos de erro e da forma do modelo parecem razoáveis em função 
da plotagem residual? 


Resumo 


Neste capítulo, mostramos como a análise de regressão pode ser usada para determinar como uma variá- 
vel dependente y se relaciona com uma variável independente x. Na regressão linear simples, o modelo de 
regressão é y = fo + Dix + є. A equação de regressão linear simples E(y) = Во + Bx descreve como o valor 
médio ou esperado de y está relacionado a x. Utilizamos dados amostrais e o método dos mínimos quadra- 
dos para desenvolver a equação de regressão estimada $ = by + Бух. Com efeito, by e b, são as estatísticas 
amostrais usadas para estimar os parâmetros desconhecidos do modelo, f e f. 

O coeficiente de determinação foi apresentado como uma medida da eficiência de ajuste da equação 
de regressão estimada; ele pode ser interpretado como a proporção da variação na variável dependente y 
que pode ser explicada pela equação de regressão estimada. Revisamos a correlação como uma medida 
descritiva de uma relação linear entre duas variáveis. 

As suposições acerca do modelo de regressão e seu termo de erro e associado foram discutidos, e os 
testes f e F, baseados nessas suposições, foram apresentados como um meio de determinar se a relação 
entre duas variáveis é estatisticamente significativa. Mostramos como usar a equação de regressão estima- 
da para desenvolver estimações por intervalo de confiança do valor médio de y e as estimações por inter- 
valo de previsáo de valores individuais de y. 

Este capítulo se encerrou com uma seção sobre a solução computadorizada dos problemas de regres- 
são, e uma seção sobre o uso da análise residual para validar as suposições do modelo. 


Glossário 

Variável dependente A variável que está sendo prevista. É designada y. 

Variável independente A variável que é usada para prever o valor da variável independente. É designada x. 

Regressão linear simples Uma análise de regressão que envolve uma variável independente e uma variá- 
vel dependente, na qual a relação entre as variáveis é aproximada por uma linha reta. 

Modelo de regressão A equação que descreve como y está relacionado com x e um termo de erro; na 
regressão linear simples, o modelo de regressão é y = By + fix + є. 

Equação de regressão A equação que descreve como a média, ou valor esperado da variável dependente, 
está relacionada com a variável independente; na regressão linear simples, E(y) = Во + fx. 

Equação de regressão estimada A estimativa da equação de regressão desenvolvida a partir de dados 
amostrais usando-se o método dos mínimos quadrados. Para a regressão linear simples, a equação de 
regressão estimada é ў = bg + Рух. 

Método dos mínimos quadrados Um procedimento para se usar dados amostrais com a finalidade de 
encontrar a equação de regressão estimada. O objetivo é minimizar Z( y; — 32. 

Diagrama de dispersão Um gráfico de dados bivariáveis no qual a variável independente se situa no eixo 
horizontal e a variável dependente, no eixo vertical. 

Coeficiente de determinação Uma medida da eficiência do ajuste da equação de regressão estimada. Pode 
ser interpretado como a proporção da variabilidade da variável dependente y que é explicada pela equa- 
ção de regressão estimada. 

i-ésimo resíduo A diferença entre o valor observado da variável dependente e o valor previsto usando-se 
a equação de regressão estimada; para a i-ésima observação, o i-ésimo resíduo é y; — 5; 

Coeficiente de correlação Uma medida da intensidade da relação linear entre duas variáveis (discutido 
anteriormente, no Capítulo 3). 
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Erro médio quadrático A estimativa sem viés da variância do termo de erro 02. É designado MSE ou s?. 

Erro padrão da estimativa A raiz quadrada da média do erro médio quadrático, designado s. É a estima- 
tiva de с, que é o desvio padrão do termo de erro є. 

Tabela ANOVA A tabela da análise de variância usada para resumir os cálculos associados ao teste F de 
significância. 

Intervalo de confiança A estimação por intervalo do valor médio de y para determinado valor de x. 

Intervalo de previsão A estimação por intervalo de um valor individual de y para determinado valor de x. 

Análise residual A principal ferramenta para determinar se o modelo de regressão proposto é apropriado. 

Plotagem residual Representação gráfica dos resíduos que pode ser usada para determinar se as suposi- 
ções feitas a respeito do modelo de regressão parecem ser válidas. 


Fórmulas-Chave 


Modelo de Regressão Linear Simples 


у= + Вх + є (12.1) 
Equação de Regressão Linear Simples 
EO) = Bo + Bx (12.2) 
Equação de Regressão Linear Simples Estimada 
ў = Б + Бх (12.3) 
Critério dos Mínimos Quadrados 
min E; — 3, (12.5) 
Inclinação e Intersecáo com y na Equação de Regressão Estimada 
b= "а-э Eu » 12.) 
by = ў – Бх (12.7) 
Soma dos Quadrados dos Erros 
SSE = X(y, - 3 (12.8) 
Soma Total dos Quadrados 
SST = X(y; – ӯ) (12.9) 
Soma dos Quadrados da Regressão 
SSR = X – »Y (12.10) 
Relação entre SST, SSR e SSE 
SST = SSR + SSE (12.11) 
Coeficiente de Determinação 
SSR 
т? = SST (12.12) 


Coeficiente de Correlação da Amostra 


туу = (sinal de by JVCoeficiente de determinação 


= (sinal de Ьу)? (12.13) 
Erro Médio Quadrático (Estimativa de o?) 
s = МЅЕ = SE (12.15) 


n—2 
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Erro Padrão da Estimativa 


s = VMSE = 4| SSE (12.16) 
n-2 


Desvio Padráo de 5, 


ES (12.17) 
à VSG- a 
Desvio Padrão Estimado de b, 
5 
$4 = CESSA (12.18) 
п VE- 
Estatística de Teste ғ 
t= b И (12.19) 
Sp, 


Regressáo pela Média Quadrática 


SSR : (12.20) 
М$К = 
Números de variáveis independentes 


Estatística de Teste F 


MSR 
F= MSE (12.21) 
Desvio Padrão Estimado de ӯ, 
EVI 
5 = WI + зе (12.23) 
Intervalo de Confiança de E(y,) 
} E lans, (12.24) 
Desvio Padrão Estimado de um Valor Individual 
—=7 
биа = зү + E — (12.26) 
Intervalo de Previsão de y, 
9 E tajana (12.27) 
Resíduo da Observação i 
3 $, (12.28) 


Exercícios Suplementares 


50. Os dados apresentados na tabela a seguir exibem o número de vendas de ações (em milhões) e o preço 
esperado (média do menor preço projetado e do maior preço projetado) de dez ofertas selecionadas 
de oferta pública inicial de títulos. 


Empresa Venda de Ações Preço Esperado (US$) 

American Physician 50 15 

Apex Silver Mines 9,0 14 

Dan River 6,7 15 

Franchise Mortgage 8,75 17 ARQUNO 
Gene Logic 3,0 M DA INTERNET 
International Home Foods 13,6 19, ТРО 
РКТ Group 4,6 13 

Rayovac 6,7 14 

RealNetworks 3,0 10 


Software AG Systems 77 13 
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a. Desenvolva uma equação de regressão estimada, sendo o número de vendas de ações a variável 
independente e o preço esperado a variável dependente. 

b. No nível de significância de 0,05, há uma relação significativa entre as duas variáveis? 

c. À equação de regressão estimada proporcionou um bom ajuste? Explique. 

d. Use a equação de regressão estimada para estimar o preço esperado por uma empresa que consi- 
dera uma oferta pública inicial de 6 milhões de ações? 


51. Os programas corporativos de recompra de ações frequentemente são propalados como um benefício 
para os acionistas. Robert Gabele, diretor de pesquisa interna do First Call/Thomson Financial, notou 
que muitos desses programas são levados a efeito com o único intuito de adquirirem ações das incen- 
tive options de uma empresa para sua alta gerência. Em todas as empresas, as stock options? existen- 
tes em 1998 representavam 6,2% de todas as ações ordinárias em circulação. Os dados a seguir mos- 
tram o número de ações cobertas pelas option grants e o número de ações ordinárias em circulação 
de 13 empresas (Bloomberg Personal Finance, janeiro/fevereiro de 2000). 


Número de Ações Ações Ordinárias 
das Option Grants em em Circulação 
Empresa Circulação (milhões) (milhões) 
Adobe Systems 20,3 61,8 
Apple Computer 52,7 160,9 
Applied Materials 109,1 3754 
Autodesk 15,7 58,9 
Best Buy 44,2 203,8 
Fruit of the Loom 142 66,9 
ITT Industries 18,0 879 
Merrill Lynch 89,9 365,5 
Novell 1202 335,0 
Parametric Technology 783 269,3 
Reebok International 12,8 56,1 
Silicon Graphics 52,6 188,8 
Toys RUs 548 247,6 


a. Desenvolva a equação de regressão estimada que possa ser usada para estimar o número de ações 
das option grants em circulação, dado o número de ações ordinárias em circulação. 

b. Use a equação de regressão estimada para estimar o número de ações das option grants em circu- 
lação de uma empresa que tem 150 milhões de ações ordinárias em circulação. 

c. Você acredita que a equação de regressão estimada forneça uma boa previsão do número de ações 
das option grants em circulação? Use r? para sustentar sua resposta. 


52. A Bloomberg Personal Finance (julho/agosto de 2001) publicou que o título com beta? da Texas 
Instruments era de 1,46. Os títulos com beta para títulos individuais são determinados por regressão 
linear simples. Para cada título, a variável dependente é o seu retorno percentual trimestral (valoriza- 
ção do capital mais os dividendos) menos seu retorno percentual trimestral que possa ser obtido de 
um investimento isento de riscos (a taxa de Letras do Tesouro Nacional é usada como o índice isen- 
to de riscos). A variável independente é o retorno percentual trimestral (valorização do capital mais 
os dividendos) do mercado financeiro (S&P 500) menos o retorno percentual de um investimento 
isento de riscos. Uma equação de regressão estimada é desenvolvida com os dados trimestrais; o títu- 
lo com beta é a inclinação (declive) da equação de regressão estimada (Ру). O valor do título com beta 
muitas vezes é interpretado como uma medida do risco associado ao título. Títulos com beta maiores 
que 1 indicam que o título é mais volátil que a média do mercado; títulos com beta menores que 1 
indicam que o título é menos volátil que a média do mercado. Suponha que os seguintes valores sejam 
as diferenças entre o retorno percentual e o rendimento isento de riscos de dez trimestres para a S&P 
500 e a Horizon Technology. 


8 NT: Stock Option — A empresa oferece aos funcionários opções de compra de suas ações. Esse benefício está atrelado ao desem- 
penho, ao cumprimento de metas. Por exemplo, membros da diretoria podem subscrever ações em um momento determinado e com 
preço inferior ao estimado pelo mercado. É uma forma de motivar o pessoal. Option grant é o mesmo que option stock grants e se 
refere a esse tipo de oferta de ações. 

9 NT: Título com beta — Medida de risco diversificável de um ativo. Coeficiente de risco de mercado da carteira durante o período 
analisado. 
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S&P 500 Horizon 

1,2 —0,7 
—2,5 —2,0 
-30 —5,5 
20 47 
5,0 1,8 
12 4,1 
3,0 2,6 
—1,0 2,0 
E —13 
2,5 5,5 


a. Desenvolva uma equação de regressão estimada que possa ser usada para determinar o título com 
beta da Horizon Technology. Qual é o título com beta da Horizon Technology? 

b. Teste se há uma relação significativa no nível de significância de 0,05. 

c. A equação de regressão estimada proporcionou um bom ajuste? Explique. 

d. Use os títulos com beta da Texas Instruments e da Horizon Technology para comparar o risco asso- 
ciado aos dois títulos financeiros. 


53. O State of the Service Report 2002-2003 da Australian Public Service Commission divulgou as ava- 
liações de satisfação no trabalho dos empregados. Uma das questões da pesquisa pediu aos emprega- 
dos que escolhessem os cinco fatores (de uma lista de fatores) mais importantes no ambiente de tra- 
balho que afetavam mais fortemente o quanto estavam satisfeitos no emprego. Os entrevistados foram 
solicitados a indicar o nível de satisfação correspondente aos cinco fatores importantes por eles indi- 
cados. Os dados a seguir apresentam a porcentagem de empregados que citaram determinado fator 
entre os cinco principais e o correspondente nível de satisfação, medido em termos da porcentagem 
de empregados que citaram o fator entre os cinco principais, e que estavam “muito satisfeitos” ou 
“satisfeitos” com esse fator em seus ambientes de trabalho atuais (http://www.apsc.gov.au/stateofthe- 
services). 

Fator do Ambiente de Trabalho Os Cinco Principais (96) Avaliação de Satisfação (96) 

Carga de trabalho apropriada 30 49 

Oportunidade para ser criativo(a)/inovador(a) 38 64 

Oportunidade de dar uma contribuição útil à sociedade 40 67 

Deveres/Expectativas definidas claramente 40 69 

Programas de trabalho flexíveis 55 i 86 

Boas relações trabalhistas 60 85 

Oferta de tarefas interessantes 48 74 

Oportunidades de desenvolvimento da carreira 33 43 

Oportunidades para desenvolver novas habilidades 46 66 

Oportunidades para utilizar minhas habilidades 50 70 

Retorno e reconhecimento habituais do esforço 42 53 

Salário 47 62 

Ver resultados palpáveis do meu trabalho 42 69 

a. Desenvolva um diagrama de dispersão com os Cinco Principais (96) no eixo horizontal e a 
Avaliação de Satisfação (96) no eixo vertical. 

b. O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas 
variáveis? 

c. Desenvolva uma equação de regressão estimada que possa ser usada para prever a Avaliação de 
Satisfação (96), dados os Cinco Principais (%). 

d. Teste se há uma relação significativa ao nível de significância de 0,05. 

e. A equação de regressão estimada proporcionou um bom ajuste? Explique. 

f. Qual é o valor do coeficiente de correlação da amostra? 

54. A Jensen Tire & Auto está em vias de decidir se assina ou não um contrato de manutenção de seu 


novo equipamento computadorizado de alinhamento e balanceamento de pneus. Os gerentes acham 
que as despesas de manutenção devem relacionar-se com o uso, e coletaram as seguintes informações 
sobre o uso semanal (em horas) e as despesas anuais de manutenção (em centenas de dólares). 
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Horas de Uso Despesas Anual 
Semanal de Manutencáo 
13 17,0 
10 22,0 
20 30,0 
28 37,0 
32 47,0 
17 30,5 
24 32,5 
3l 39,0 
40 51,5 
38 40,0 


55. 


a. Desenvolva a equação de regressão estimada que relacione a despesa de manutenção com o uso 
semanal. 

b. Teste a significância da relação do item (a) ao nível de significância 0,05. 

c. A Jensen espera usar o novo equipamento 30 horas por semana. Desenvolva um intervalo de pre- 
visão de 95% relativo à despesa anual de manutenção da empresa. 

d. Se o contrato de manutenção custar US$ 3 mil por ano, você recomendaria adquiri-lo? Por quê? 


Em um processo de manufatura, avaliou-se que a velocidade da linha de montagem (metros por minu- 
to) afeta o número de peças defeituosas encontradas durante o processo de inspeção. Para testar essa 
teoria, os gerentes idealizaram uma situação na qual o mesmo lote de peças era inspecionado visual- 
mente em diversas velocidades da linha de montagem. Coletaram os seguintes dados. 


Velocidade da linha de produção Número de peças 
(em metros/min) defeituosas encontradas 
6 21 
6 i9 
12 15 
9 l6 
i8 14 
12 17 


56. 


а. Desenvolva a equacáo de regressáo estimada que relacione a velocidade da linha de montagem com 
o número de peças defeituosas encontradas. 

b. No nível de significância 0,05, determine se a velocidade da linha de montagem e o número de 
peças defeituosas encontradas se relacionam. 

c. À equação de regressão estimada proporciona um bom ajuste aos dados? 

d. Desenvolva um intervalo de confiança para prever o número médio de peças defeituosas para uma 
linha de montagem cuja velocidade é de 15,24 m por minuto. 


Um sociólogo foi contratado pelo hospital de uma grande cidade para investigar a relação entre o 
número de dias não-autorizados em que os funcionários se ausentavam do trabalho por ano e a dis- 
tância (em quilômetros) entre a casa e o trabalho dos empregados. Uma amostra de dez empregados 
foi escolhida, e os seguintes dados foram coletados: 


Distância do trabalho (km) Número de Dias Ausentes 


1,6 
4,8 
6,4 
92,6 

12,86 
16,1 
19,3 
22,5 
22,5 
29,0 


со 


кә 4& NJ) (л о) OS X ол 


a. Desenvolva um diagrama de dispersão desses dados. Uma relação linear parece razoável? Explique. 
b. Desenvolva a equação de regressão estimada pelo método dos mínimos quadrados. 
c. Há uma relação significativa entre as duas variáveis? Use а = 0,05. 


Capítulo 12 Regressão Linear Simples 


57. 


d. A equação de regressão estimada proporcionou um bom ajuste? Explique. 

e. Use a equação de regressão estimada desenvolvida no item (b) para desenvolver um intervalo de 
confiança de 95% do número esperado de dias que os empregados que moram a 8 km da empresa 
se ausentarão do trabalho. 


O departamento regional de trânsito de uma grande região metropolitana quer determinar se há algu- 


ma relação entre a idade de um ônibus e o custo anual de manutenção. Uma amostra de dez ônibus 
resultou nos seguintes dados: 


Idade do Ônibus (anos) Custo de Manutenção (US$) 


350 
370 
480 
520 
590 
550 
750 
800 
790 
950 


Un Un A S GU NONI мм — 


58. 


a. Desenvolva a equação de regressão estimada pelo método dos mínimos quadrados. 

b. Teste se as duas variáveis são significativamente relacionadas com a = 0,05. 

c. А reta dos mínimos quadrados proporcionou um bom ajuste para os dados observados? Explique. 

d. Desenvolva um intervalo de previsão de 96% para o custo de manutenção de um ônibus específi- 
co que tem 4 anos. 


Um professor de Marketing do Givens College está interessado na relação entre as horas que um 
aluno gasta estudando e a pontuação total obtida em um curso. Dados coletados sobre dez estudan- 
tes que fizeram o curso no último trimestre são os seguintes: 


Horas que o Aluno Pontuação 
Gasta Estudando Total Obtida 
45 40 
30 35 
90 75 
60 65 
105 90 
65 50 
90 90 
80 80 
55 45 
75 65 


59. 


a. Desenvolva uma equação de regressão estimada mostrando como a pontuação total obtida se rela- 
ciona com as horas que o aluno gasta estudando. 

b. Teste a significância do modelo com a = 0,05. 

c. Preveja a pontuação total obtida por Mark Sweeney. Ele passou 95 horas estudando. 

d. Desenvolva um intervalo de previsão de 95% da pontuação total obtida por Mark Sweeney. 


A Transactional Records Access Clearinghouse, da Syracuse University, divulgou dados mostrando 
as disparidades em uma auditoria realizada pelo Internal Revenue Service (Departamento da Receita 
Federal). A tabela a seguir apresenta a média da renda bruta ajustada declarada e a porcentagem das 
declarações auditadas em 20 áreas do IRS selecionadas. 


Renda Bruta Porcentagem de 
Área Ajustada (US$) Declarações Auditadas 
Los Angeles 36.664 1,3 
Sacramento 38.845 Li 
Atlanta 34.886 tt 
Boise 32.512 bt 
Dallas 34.531 Lo 
Providence 35.995 1,0 
São José 37.799 0,9 
Cheyenne 33.876 0,9 


Fargo 30,513 0,9 
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Renda Bruta Porcentagem de 

Área Ajustada (US$) Declaracóes Auditadas 
New Orleans 30.174 0,9 
Oklahoma City 30.060 0,8 
Houston 37.153 0,8 
Portland 34.918 0,7 
Phoenix 33.291 0,7 
Augusta 31,504 0,7 
Albuquerque 29.199 0,6 
Greensboro 33.072 0,6 
Columbia 30.859 0,5 
Nashville 32.566 0,5 
Buffalo 34.296 0,5 


a. Desenvolva a equação de regressão estimada que possa ser usada para prever a porcentagem de 
declarações auditadas, dada a média de renda bruta ajustada declarada. 

b. Ao nível de 0,05 de significáncia determine se a renda bruta ajustada e a porcentagem de declara- 
ções auditadas se relacionam. 

c. Use a equação de regressão estimada desenvolvida no item (a) para calcular um intervalo de con- 
fiança de 95% para a porcentagem de declarações auditadas correspondentes às áreas com uma 
média de renda bruta ajustada de US$ 35 mil. 


Estudo de Caso | — Gastos e Desempenho Escolar 


O nível de progresso educacional dos estudantes está relacionado com os investimentos que o Estado em 
que eles residem faz em educação? Em muitas comunidades, os contribuintes fazem essa importante per- 
gunta, uma vez que os distritos escolares solicitam aumentos da parcela do imposto de renda destinada à 
educação. Nesse caso, você será solicitado a analisar dados sobre os gastos e sobre as notas de desempe- 
nho estudantil a fim de determinar se há alguma relação entre os gastos e o desempenho estudantil nas 
escolas públicas. 

O programa National Assessment of Educational Progress — Avaliação Nacional do Progresso Escolar 
(NAEP) do governo federal norte-americano é usado freqüentemente para medir o progresso escolar dos 
estudantes. A Tabela 12.8 mostra o atual custo total anual por aluno e a pontuação NAEP média corres- 
pondente aos 35 estados que participaram do programa. No site www.thomsonlearning.com.br/esta- 
tapl.htm há um arquivo intitulado NAEP. A pontuacáo média do exame é a soma das notas obtidas em 
matemática, ciéncias e leitura no teste NAEP de 1996 (1994 para leitura). 


Tabela 12.8 Gastos por aluno e pontuação média nos estados que participaram do programa NAEP 


Gastos por Pontuação 
Estado Aluno (US$) Média 
Louisiana 4.049 581 
Mississippi 3.423 582 
Califórnia 4917 580 
Havaí 5.532 580 
Carolina do Sul 4.304 603 
Alabama 3.777 604 
Georgia 4.663 611 
Flórida 4.934 611 
Novo México 4.097 614 
Arkansas 4.060 615 
Delaware 6.208 615 
Tennessee 3.800 618 
Arizona 4.041 618 
West Virginia 5.247 625 
Maryland 6.100 625 
Kentucky 5.020 626 


Texas 4.520 627 
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Tabela 12.8 Gastos por aluno e pontuação média nos estados que participaram 
do programa NAEP (continuação) 


Gastos por Pontuacáo 

Estado Aluno (US$) Média 
Nova York 8.162 628 
Carolina do Norte 4.521 629 
Rhode Island 6.554 638 
Washington 5.338 639 
Missouri 4.483 641 
Colorado 4472 644 
Indiana 5.128 649 

. Utah 3.280 650 
Wyoming 5.515 657 
Connecticut 7.629 657 
Massachusetts 6.413 658 
Nebraska 5.410 660 
Minnesota 5.477 661 
lowa 5.060 665 
Montana 4.985 667 
Wisconsin 6.055 667 
Dakota do Norte 4.374 671 
Maine 5.561 675 


Os alunos avaliados estáo na oitava série, exceto os do exame de leitura, que é aplicado apenas a alunos 
da quarta série. A pontuação máxima possível é 1.300. A Tabela 12.9 apresenta os gastos por aluno em 13 
estados que não participaram de pesquisas relevantes do programa NAEP. Esses dados foram publicados em 
um artigo sobre o nível de gastos e o desempenho escolar na revista Forbes (3 de novembro de 1997). 


Relatório Administrativo 


1. Desenvolva resumos numéricos e gráficos dos dados. 


2. Use análise de regressão para investigar a relação entre a quantia gasta por aluno e a pontuação 
média no exame NAEP. Discuta suas conclusões. 


Tabela 12.9 Gastos por aluno nos estados que não participaram do programa NAEP 


Estado Gasto por Aluno (US$) 
Idaho 3.602 
Dakota do Sul 4.067 
Oklahoma 4.265 
Nevada 4.658 
Kansas 5.164 
Illinois 5.297 
New Hampshire 5.387 
Ohio 5.438 
Oregon 5.588 
Vermont 6.269 
Michigan 6.391 
Pennsylvania 6.579 
Alaska 7.890 


3. Você acha que a equação de regressão estimada desenvolvida para esses dados poderia ser usada para 
estimar as pontuações médias de exame nos estados que não participaram do programa NAEP? 


4. Suponha que você tenha considerado somente os estados que gastam no mínimo US$ 4 mil, mas 
não mais do que US$ 6 mil por aluno. Quanto a esses estados, a relação entre as duas variáveis pare- 
ce ser de alguma maneira diferente do conjunto de dados completo? Discuta os resultados de suas 
conclusões e se você acha apropriado excluir os estados que gastam menos de US$ 4 mil e mais de 
US$ 6 mil por aluno ao ano. 
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5. Desenvolva estimativas da média de pontuações obtidas nos estados que não participaram no pro- 
grama NAEP. 


6. Com base em suas análises, você acha que o nível de progresso escolar dos estudantes se relacio- 
na com a quantidade de investimentos que o estado faz em educação? 


Estudo de Caso 2 – U.S. Department of Transportation 


Como parte de um estudo sobre segurança no trânsito, o U.S. Department of Transportation (Departamento 
de Transportes dos Estados Unidos) coletou dados sobre o número de acidentes fatais para cada mil cartei- 
ras de habilitação, bem como a porcentagem de motoristas com menos de 21 anos autorizados a dirigir, em 
uma amostra de 42 cidades. Os dados coletados ao longo de um ano são apresentados a seguir. Esses dados 
estão disponíveis no site www.thomsonlearning.com.br/estatapl.htm, no arquivo intitulado Safety. 


Acidentes Fatais Acidentes Fatais 
Porcentagem para Cada 1000 Porcentagem para Cada 1000 
com Menos de 21 Carteiras de Habilitação сот Menos de 21 Carteiras de Habilitação 
3 2,962 7 4,100 
2 0,708 8 2,190 
8 0,885 6 3,623 
2 ,652 5 2,623 
| 2,091 9 0,835 
7 2,627 8 0,820 
8 3,830 4 2,890 
8 0,368 8 1,267 
3 42 5 3,224 
8 0,645 0 1,014 
9 028 0 0,493 
6 2,801 4 1,443 
2 ,405 8 3,614 
9 ,433 0 1,926 
0 0,039 4 1,643 
9 0,338 6 2,943 
| 1,849 2 1,213 
2 2,246 5 2,814 
4 2,855 3 2,634 
4 2,352 9 0,926 
I 1,294 7 3,256 


Relatório Administrativo 


1. Desenvolva resumos numéricos e gráficos dos dados. 


2. Use análise de regressão para investigar a relação entre o número de acidentes fatais e a porcenta- 
gem de motoristas com menos de 21 anos, Discuta suas conclusões. 


3. Qual conclusão e quais recomendações você é capaz de deduzir de sua análise? 


Estudo de Caso 3 — Doações de Ex-Alunos 


As doações de ex-alunos são uma fonte importante de receita para colégios e universidades. Se os admi- 
nistradores pudessem determinar os fatores que influem no aumento da porcentagem de ex-alunos que 
fazem doações, talvez pudessem ser capazes de implementar políticas que levassem a um aumento das 
receitas. Pesquisas mostram que os estudantes que estão mais satisfeitos em seus contatos com os profes- 
sores têm mais probabilidade de graduar-se. Em conseqüéncia, poder-se-ia imaginar que classes menores, 
e uma razão professor/alunos, acarretariam uma maior porcentagem de graduados satisfeitos, o que, por 
sua vez, poderia levar a um aumento na porcentagem de ex-alunos que fazem doações. A Tabela 12.10 
apresenta dados de 48 universidades federais (America's Best Colleges, edição de 2000). A coluna intitu- 
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lada Porcentagem de Classes com Menos de 20 exibe a porcentagem de classes disponíveis com menos de 
20 alunos. A coluna intitulada Razão Estudantes/Professor é o número de estudantes matriculados dividi- 
do pelo número total de professores. Finalmente, a coluna intitulada Índice de Doação de Ex-alunos é a 
porcentagem de ex-alunos que fizeram doações à universidade. 


Relatório Administrativo 


1. Desenvolva resumos numéricos e gráficos dos dados. 


2. Use análise de regressão para desenvolver uma equação de regressão estimada que possa ser usada para 
prever o índice de doação de ex-alunos, dada a porcentagem de classes com menos de 20 alunos. 


3. Use análise de regressão para desenvolver uma equação de regressão estimada que possa ser usada 
para prever o índice de doação de ex-alunos, dada a relação estudantes/professores. 


4. Qual das duas equações de regressão estimadas proporciona o melhor ajuste? Quanto a essa equa- 
ção de regressão estimada, realize uma análise dos resíduos e discuta suas descobertas e conclusões. 


5. Quais conclusões e recomendações você é capaz de deduzir de sua análise? 


Tabela 12.10 Dados de 48 Universidades Federais 


96 de Classes Razão Índice de 
com Menos de 20 Estudante/Professor Doação de Ex-Alunos 
Boston College 39 3 25 
Brandeis University 68 8 33 
Brown University 60 8 40 
California Institute of Technology 65 3 46 
Carnegie Mellon University 67 0 28 
Case Western Reserve Univ. 52 8 3t 
College of William and Mary 45 [pi 27 
Columbia University 69 7 3l 
Corneli University 72 3 35 
Dartmouth College 61 0 53 
Duke University 68 8 45 
Emory University 65 7 37 
Georgetown University 54 0 29 
Harvard University 73 8 46 
Johns Hopkins University 64 9 27 
Lehigh University 55 | 40 
Massachusetts Inst. of Technology 65 6 44 
New York University 63 3 13 
Northwestern University 66 8 30 
Pennsylvania State Univ. 32 9 21 
Princeton University 68 5 67 
Rice University 62 8 40 
Stanford University 69 7 34 
Tufts University 67 9 29 
Tulane University 56 2 7 
U. of California-Berkeley 58 7 8 
U. of California-Davis 32 9 7 
U. of California-lrvine 42 20 9 
U. of California-Los Angeles 41 8 3 
U. of California-San Diego 48 9 8 
U. of California-Santa Barbara 45 20 2 
U. of Chicago 65 4 36 
U. of Florida 31 23 9 
U. of Illinois-Urbana Champaign 29 5 23 
U. of Michigan-Ann Arbor 51 5 3 


481 


в) 


ARQUIVI 
DA INTERNET 


Alumni 


482 


ARQUIVO 
DA INTERNET 


Estatística Aplicada à Administracáo e Economia 


Tabela 12.10 Dados de 48 Universidades Federais (continuacáo) 


96 de Classes Razáo Índice de 
com Menos de 20 Estudante/Professor Doação de Ex-alunos 
U. of North Carolina-Chapel Hill 40 6 26 
U. of Notre Dame 53 3 49 
U. of Pennsylvania 65 7 4l 
U. of Rochester 63 0 23 
U. of Southern California 53 3 22 
U. of Texas-Austin 39 21 13 
U. of Virginia 44 3 28 
U. of Washington 37 2 12 
U, of Wisconsin-Madison 37 3 13 
Vanderbilt University 68 9 3l 
Wake Forest University 59 | 38 
Washington University-St. Louis 73 7 33 
Yale University 77 7 50 


Estudo de Caso 4 - Valores dos Times de Beisebol da Major League! 


Um grupo dirigido por John Henry pagou US$ 700 milhões para comprar o Boston Red Sox, não obstan- 
te essa equipe não ter ganho a World Series!! desde 1918, e anunciaram um prejuízo operacional de 
US$ 11,4 milhões para 2001. Além disso, a revista Forbes estima que o valor atual do time é, de fato, 
US$ 426 milhões. A Forbes atribui a diferença entre o valor atual de uma equipe e o preço que os investi- 
dores estão dispostos a pagar ao fato de a compra de um time frequentemente incluir a aquisição de uma 
rede de TV a cabo flagrantemente subavaliada. Por exemplo, ao comprar o Boston Red Sox, os novos pro- 
prietários também adquiriram uma participação de 80% na New England Sports Network. A Tabela 12.11 
apresenta os dados das 30 principais equipes da liga (Forbes, 15 de abril de 2002). A coluna intitulada 
Valor contém os valores das equipes baseados nos atuais negócios com estádios, sem dedução de débitos. 
A coluna intitulada Renda indica os ganhos antes dos juros, dos impostos e da desvalorização. 


Relatório Administrativo 


1. Desenvolva resumos numéricos e gráficos dos dados. 
2. Use análise de regressão para investigar a relação entre valor e renda. Discuta suas conclusões. 


Tabela 12.11 Dados referentes aos times de Beisebol da Major League 


Time Valor Receita Renda 
New York Yankees 730 215 18,7 
New York Mets 482 69 14,3 
Los Angeles Dodgers 435 43 —29,6 
Boston Red Sox 426 52 =1,4 
Atlanta Braves 424 60 9,5 
Seattle Mariners 373 66 14,1 
Cleveland Indians 360 50 —3,6 
Texas Rangers 356 34 —6,5 
San Francisco Giants 355 42 16,8 
Colorado Rockies 347 29 67 
Houston Astros 337 25 4,1 
Baltimore Orioles 319 33 32 
Chicago Cubs 287 3I 79 


10 NT: Major League(s) — As duas principais ligas de clubes de beisebol nos Estados Unidos: a National League e a American League. 
11 NT: World Series — Uma série de jogos anuais entre os times vencedores das duas principais ligas de beisebol dos Estados Unidos 
para decidir o campeonato. 
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Tabela 12.11 Dados referentes aos times de Beisebol da Major League (continuação) 


Time Valor 
Arizona Diamondbacks 280 
St. Louis Cardinals 271 
Detroit Tigers 262 
Pittsburgh Pirates 242 
Milwaukee Brewers 238 
Philadelphia Phillies 231 
Chicago White Sox 223 
San Diego Padres 207 
Cincinnati Reds — . 204 
Anaheim Angels 195 
Toronto Blue Jays 182 
Oakland Athletics 157 
Kansas City Royals 152 
Tampa Bay Devil Rays 142 
Florida Marlins 137 
Minnesota Twins 127 
Montreal Expos 108 


Receita 


127 
123 
114 
108 
108 
94 
101 
92 
87 
103 
91 
90 
85 
92 
81 
75 
63 


Renda 


=3,9 
5,1 
12,3 
9,5 
18.8 
2,6 
-38 
5,7 
43 
5,7 
—20,6 
6,8 
22 
—6,1 
1,4 
3,6 
—3,4 


' 3. Use análise de regressão para investigar a relação entre valor e receita. Discuta suas conclusões. 
4. Quais conclusões e recomendações você é capaz de deduzir de sua análise? 


Apéndice 12.1 – Análise de Regressão com o Minitab 


Na Seção 12.7, discutimos'a solução computadorizada de problemas de regressão, mostrando a saída de 
dados do Minitab relativa ao problema dos restaurantes Armand's Pizza Parlors. Neste apêndice, descre- 
vemos as etapas necessárias para gerar a solução computadorizada com o Minitab. Primeiramente, os 
dados devem ser inseridos em uma planilha do Minitab. Os dados da população estudantil são inseridos na 
coluna C1 e os dados das vendas trimestrais são inseridos na coluna C2. Os nomes das variáveis Pop 
(População) e Sales (Vendas) são inseridos como títulos de coluna na planilha. Nas etapas subseqüentes, 
referimo-nos aos dados usando os nomes das variáveis Pop e Sales ou os indicadores de coluna C1 e C2. 
As etapas a seguir descrevem como usar o Minitab para produzir os resultados de regressáo mostrados na 


Figura 12.10. 


Etapal. Selecione o menu Stat 
Etapa 2. Selecione o menu Regression 
Etapa 3. Escolha a opção Regression 


Etapa 4. Quando a caixa de diálogo Regression aparecer: 


Digite Sales na caixa Response 
Digite Pop na caixa Predictors 
Dé um clique no botáo Options 


Quando a caixa de diálogo Regression-Options aparecer: 


Digite 10 na caixa Prediction intervals for new observations 


Dé um clique em OK 


Quando a caixa de diálogo Regression reaparecer: 


Dé um clique em OK 


A caixa de diálogo Regression do Minitab oferece capacidades adicionais que podem ser obtidas sele- 
cionando-se as opções desejadas. Por exemplo, para obter uma plotagem residual que mostra o valor pre- 
visto da variável dependente ӯ no eixo horizontal e os valores residuais no eixo vertical, a etapa 4 seria 


feita da seguinte maneira: 


Etapa 4: Quando a caixa de diálogo Regression aparecer: 


Digite Sales na caixa Response 
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Digite Pop na caixa Predictors 
Dé um clique no botão Graphs 

Quando a caixa de diálogo Regression-Graphs aparecer: 
Selecione Regular sob a opção Residuals for Plots 
Selecione Residuals versus fits sob a opção Residual Plots 
Dé um clique em OK 

Quando a caixa de diálogo Regression reaparecer: 
Dé um clique em OK 


Apêndice 12.2 – Análise de Regressão com o Excel 


Neste apêndice, ilustraremos como a ferramenta Regressão do Excel pode ser usada para realizar os cál- 

culos de análise de regressáo do problema dos restaurantes Armand's Pizza Parlors. Consulte a Figura 
ARQUIVO 12.14 à medida que descrevermos as etapas envolvidas. Os rótulos Restaurante, População e Vendas são 

DA INTERNET inseridos nas células А1:С1 da planilha. Para identificar cada uma das dez observações, inserimos os 
Armand's números 1 a 10 nas células AZ:A11. 


Figura 12.14 Solucáo do Excel para o problema dos restaurantes Armand's Pizza Parlors 


[| А [в с__[›] к [ к 6 | ун, I3 
Restaurante | População | Vendas 


n 

13 [RESUMO DA SAIDA * ^ 

MI E 1 
15) Estatística de Regressão ^. 

16 |R-Múltipla _. 0.9501] ] 

17 |R-Quadrado «090771 

18 |R-Quadrado Mes 0.8906 

19 | Erro Padrão 513.8293 

120 jObservações. — . 10 

21 

Z[ANNQA ы К Г 4 |. 

23| а |е 50 MQ Е |Significância F] 

24 [Regressão s 1 14200 [14200 |.-74.2484 2.55E-05 

25 | Resíduo 8|» s 1530[19125 DEM" 

26| Toal а |. 9 Im €i» ul j 

27 

28[ "з... Coeficientes Erro Padrão” | Estat t Valor P.| | 9596 Min, | Мах. 95% | 990% Min.«| 900% Ма. 
29 |Intercepção «60: ш 922606.5033| 00002] “ 387247] ~ 812753] — 290431 90.9569 
(30 [População 5j. 05803 861671 2.558-05| " 3.6619. 63381] = 30530) .. 69470 
31 
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Os dados amostrais sáo inseridos nas células B2:C11. As etapas a seguir descrevem como usar o Excel 
para produzir os resultados de regressáo. 


Etapal. Selecione o menu Ferramentas 
Etapa 2. Escolha a opção Análise de Dados 
Etapa3. Escolha Regressão na lista de Ferramentas de Análise 
Etapa 4. Рё um clique em OK 
Etapa 5. Quando a caixa de diálogo Regressão aparecer: 
Digite C1:C11 na caixa Intervalo Y de Entrada 
Digite B1:B11 na caixa Intervalo X de Entrada 
Selecione Rótulos 
Selecione Nível de Confiança 
Digite 99 na caixa Nível de Confiança 
Selecione Intervalo de Saída 
Digite A13 na caixa Intervalo de Saída 


(Qualquer célula do canto superior esquerdo que indique onde a saída deve ser iniciada pode ser inse- 
rida aqui.) 
Dê um clique em OK 


A primeira seção da saída de dados, intitulada Estatísticas da Regressão, apresenta um resumo estatístico, 
por exemplo, o coeficiente de determinação (R-Quadrado). A segunda seção da saída, intitulada ANOVA, 
contém a tabela de análise de variância. A última seção da saída, a qual não tem um título, contém o coe- 
ficiente de regressão estimado e as informações correspondentes. Iniciaremos nossa discussão da interpre- 
tação da saída de regressão com a informação contida nas células А28:130. 


Interpretação da Saída de Dados da Equação de Regressão Estimada 


O ponto em que a reta de regressão estimada intercepta o eixo y, by = 60, é mostrado na célula B29, e a 
inclinação da reta de regressão estimada, b, = 5 é mostrada na célula B30. O rótulo Intercepto na célula 
A29 e o rótulo População na célula A30 são usados para identificar esses dois valores. 

Na Seção 12.5, mostramos que o desvio padrão estimado de b, é 5, = 0,5803. Observe que o valor 
na célula C30 é 0,5803. O rótulo Erro Padrão na célula C28 é a maneira de o Excel indicar que o valor na 
célula C30 é o erro padrão, ou desvio padrão, de b,. Lembre-se de que o teste г de uma relação significa- 
tiva exigia o cálculo da estatística f, ou seja, t = b/s, „ Em relação aos dados dos restaurantes Armand's, 
o valor de z que calculamos foi г = 5/0,5803 = 8,62. O rótulo na célula D28, Estatística t, lembra-nos de 
que a célula 030 contém o valor da estatística 1. 

O valor na célula E30 é o valor associado ao teste г de significância. O Excel exibiu o valor р na célula 
E30 usando notação científica. Para obter o valor decimal, deslocamos a vírgula cinco casas decimais à 
esquerda, obtendo o valor 0,0000255. Uma vez que o valor p = 0,0000255 « a = 0,01, podemos rejeitar 
Ho e concluir que temos uma relação significativa entre a população de estudantes e as vendas trimestrais. 

A informação nas células Е28:130 pode ser usada para desenvolver estimações por intervalo de confian- 
ça da intercepção com o eixo y e a inclinação da equação de regressão estimada. O Excel sempre apresen- 
ta os limites mínimo e máximo de um intervalo de confiança de 95%. Lembre-se de que na etapa 4, sele- 
cionamos Nível de Confiança e inserimos 99 na caixa Nível de Confiança. Em conseqüéncia, a ferramenta 
Regressão do Excel também fornece os limites mínimo e máximo de um intervalo de confiança de 99%. O 
valor na célula H30 é o limite mínimo da estimação por intervalo de confiança de 99% de B, e o valor па 
célula 130 é o limite máximo. Desse modo, após o arredondamento, a estimação por intervalo de confiança 
de 99% de B, varia de 3,05 a 6,95. Os valores nas células F30 e G30 fornecem os limites mínimo e máxi- 
mo do intervalo de confiança de 95%. Assim, o intervalo de confiança de 95% varia de 3,66 a 6,34. 


Interpretação da Saída de Dados ANOVA 


A informação nas células A22:F26 é um resumo dos cálculos da análise de variância. As três fontes de 
variação são rotuladas de Regressão, Resíduo e Total. O rótulo gł na célula B23 refere-se a “graus de liber- 
dade”, o rótulo, o rótulo SQ na célula C23 corresponde à soma dos quadrados e o rótulo MQ na célula D23 
refere-se à média quadrática. 
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Na Seção 12.5, afirmamos que o erro médio quadrático, obtido ao dividir-se a soma dos quadrados dos 
erros ou resíduos por seus graus de liberdade, fornece uma estimativa de 02. O valor na célula D25, 
191,25, é o erro médio quadrático da saída de dados da regressão correspondente aos restaurantes 
Armand's. Na Seção 12.5, mostramos que um teste F também poderia ser usado para testar a significân- 
cia em uma regressão. O valor na célula F24, 0,0000255, é o valor p associado ao teste F de significância. 
Uma vez que o valor p = 0,0000255 < а = 0,01, podemos rejeitar Н, e concluir que temos uma relação 
significativa entre a população estudantil e as vendas trimestrais. O rótulo que o Excel usa para identificar 
o valor p, mostrado na célula F23, é Significância F. 


Interpretação da Saída de Dados da Estatística de Regressão 


O coeficiente de determinação, 0,9027, aparece na célula B:17; o rótulo correspondente, R-Quadrado, é 
indicado na célula A17. A raiz quadrada do coeficiente de determinação fornece o coeficiente de correla- 
ção amostral 0,9501, mostrado na célula B16. Observe que o Excel usa o rótulo R-Múltipla (célula A16) 
para identificar esse valor. Na célula A19, o rótulo Erro Padrão é usado para identificar o valor do erro 
padrão da estimativa exposta na célula B19. Desse modo, o desvio padrão da estimativa é 13,8293. 
Recomendamos ao leitor ter em mente que, na saída do Excel, o rótulo Erro Padrão aparece em dois luga- 
res diferentes. Na Seção Estatística de Regressão da saída de dados, o rótulo Erro Padrão refere-se à esti- 
mativa о. Na seção Equação de Regressão Estimada da saída de dados o rótulo Erro Padrão corresponde 
а 5, O desvio padrão da distribuição amostral de b,. 


CAPÍTULO 13 


Regressão Múltipla 


ESTATÍSTICA NA PRÁTICA 


INTERNATIONAL PAPER? 
Purchase, Nova York 


A International Paper é a maior empresa mundial produtora de papel e de produtos florestais. A empresa 
emprega 117 mil pessoas em suas operações em aproximadamente 50 países e exporta seus produtos para 
mais de 130 nações. A International Paper produz materiais de construção — pranchas de madeira e madeira 
compensada, materiais de embalagem para bens de consumo —; copos e recipientes descartáveis; materiais 
de embalagem industrial — caixas de papel corrugado e contêineres de embarque —; bem como uma grande 
variedade de papéis para fotocopiadoras, impressoras, livros e materiais de propaganda. 

Para fabricar produtos de papel, as usinas de polpa processam madeira picada e produtos químicos para 
produzir polpa de madeira (celulose). A celulose é então usada em uma usina de papel para produzir produ- 
tos de papel. Na produção de papel branco, a polpa deve ser branqueada para eliminar qualquer descolora- 
ção. Um agente fundamental no processo de branqueamento (bleaching) é o dióxido de cloro, o qual, em 
virtude de sua natureza combustível, geralmente é produzido em uma instalação da fábrica de celulose е 
depois é bombeado na forma de solução para uma estação de branqueamento, A fim de melhorar um dos 
processos usados na produção do dióxido de cloro, pesquisadores estudaram o controle e a eficiência do pro- 
cesso, Um dos aspectos do estudo examinou a taxa de suprimento de produtos químicos para a produção 
de dióxido de cloro. 

Para produzir o dióxido de cloro, quatro produtos químicos fluem a taxas controladas para o gerador de 
dióxido de cloro. O dióxido de cloro produzido no gerador flui para um absorvedor, no qual água gelada 
absorve o gás dióxido de cloro para formar a solução de dióxido de cloro. A solução é então bombeada para 


* Os autores agradecem a Marian Williams e a Bill Griggs por fornecer esta “Estatística na Prática”. Essa aplicação foi desenvol- 
vida originalmente na Champion International Corporation, a qual se tornou parte da International Paper em 2000. 
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a fábrica de papel. Uma parte fundamental no controle do processo envolve as taxas de suprimento de produ- 
tos químicos. Historicamente, operadores experientes definiam as taxas de suprimento dos produtos químicos, 
mas esse critério levou a um excesso de trabalho de controle da parte dos operadores. Conseqüentemente, 
os engenheiros químicos da usina solicitaram que um conjunto de equações de controle, uma para cada supri- 
mento químico, fosse desenvolvido para auxiliar os operadores na tarefa de definir as taxas. 

Usando análise de regressão múltipla, os analistas estatísticos desenvolveram uma equação de regressão 
múltipla estimada para cada um dos quatro produtos químicos empregados no processo. Cada equação rela- 
cionava a produção de dióxido de cloro com a quantidade de produto químico usado e o nível de concentra- 
ção da solução de dióxido de cloro. O conjunto resultante de quatro equações foi programado em um com- 
putador em cada usina. No novo sistema, os operadores digitam a concentração da solução de dióxido de cloro 
e a taxa de produção desejadas; o software calcula então o suprimento de produto químico necessário para se 
obter a taxa de produção desejada. Depois: que os operadores começaram a usar as equações de controle, a 
eficiência do gerador de dióxido de cloro se elevou, e o número de vezes que as concentrações permanece- 
ram dentro de limites aceitáveis também se elevou significativamente. 

Esse exemplo mostra como a análise de regressão múltipla pode ser usada para desenvolver um processo 
de branqueamento melhor para produzir produtos de papel branco, Neste capítulo, discutiremos como são 
usados softwares para essas finalidades. A maior parte dos conceitos apresentados no Capítulo 12, relativos à 
regressão linear simples, pode ser estendida diretamente ao caso das regressões múltiplas. 


No Capítulo 12, apresentamos a regressão linear simples e demonstramos séu uso no desenvolvimento 
de uma equação de regressão estimada que descreva a relação entre duas variáveis. Lembre-se de que a va- 
riável prevista ou explicada é chamada variável dependente e a variável usada para prever ou explicar a variá- 
vel dependente é denominada variável independente. Neste capítulo, prosseguimos nosso estudo da análise 
de regressão ao considerarmos situações que envolvem duas ou mais variáveis independentes. Essa matéria, 
intitulada análise de regressão múltipla, nos possibilita considerar mais fatores e, desse modo, obter melho- 
res estimativas do que aquelas que são possíveis com a regressão linear simples. 


13.1 MODELO DE REGRESSÁO MÚLTIPLA 


Análise de regressão múltipla é o estudo de como a variável dependente y se relaciona com duas ou mais 
variáveis independentes. Em geral, usamos p para designar o número de variáveis independentes. 


Modelo de Regressão e Equação de Regressão 


Os conceitos de modelo de regressão e equação de regressão apresentados no capítulo anterior são aplicá- 
veis ao caso da regressão múltipla. A equação que descreve como a variável dependente y está relaciona- 
da com as variáveis independentes x), x;, . . ., x, e um termo de erro denomina-se modelo de regressão 
múltipla. Iniciamos com a suposição de que o modelo de regressão múltipla assume a seguinte forma: 


MODELO DE REGRESSÃO MÚLTIPLA 
y = Bo + Bixi + baxa t ee + Bp tE (13.1) 


No modelo de regressão múltipla, Во, B,, bz . . . , В São os parâmetros e e (a letra grega epsílon) é uma 
variável aleatória. Um exame minucioso desse modelo revela que у é uma função linear de хү, xj, . .. , x, 
(a parte Bo + Вуху + Bx, +. . + В,х,) mais um termo de erro e. O termo de erro é responsável pela varja- 
bilidade em y que náo pode ser explicada pelo efeito linear das variáveis independentes p. 

Na Seção 13.4, discutiremos as suposições referentes ao modelo de regressão múltipla e e. Uma das 
suposições é que a média, ou valor esperado, de € é zero. Uma das conseqüéncias dessa suposição é que 
a média, ou valor esperado, de y, designado EQ), é igual a fg + Вуху + Box; +... + Byx,. А equação 
que descreve como o valor médio de y está relacionado а ху, x», . . . , х, denomina-se equação de regres- 
são múltipla. 
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EQUAÇÃO DE REGRESSÃO MÚLTIPLA 


EO) = By + By + Вх ++ B,x, 


(13.2) 


Equação de Regressão Múltipla Estimada 


Se os valores de Во, 1, B; . . - В, fossem conhecidos, a Equação 13.2 poderia ser usada para calcular o 
valor médio de y em relação a valores dados de xj, x2, . . 
geralmente não serão conhecidos, e devem ser estimados a partir de dados amostrais. Uma variável alea- 
tória simples é usada para calcular as estatísticas amostrais bo, by, bz, . . 
madores por ponto dos parâmetros o, 31, 82, . . 


equação de regressão múltipla estimada. 


„ Хр. Infelizmente, esses valores de parâmetro 


., b, que são utilizadas como esti- 
„ B». Essas estatísticas amostrais fornecem a seguinte 


EQUAÇÃO DE REGRESSÁO MÚLTIPLA ESTIMADA 


em que 


ў = ba + bix, + by +++ bx, 


bo, by, bz, . . ., bp são as estimativas de Bo, Bi, z - - ., Bp 
$ = o valor estimado da variável dependente. 


(13.3) 


O processo de estimação para a regressão múltipla é mostrado na Figura 13.1. 


13.2 MÉTODO DOS MÍNIMOS QUADRADOS 


No Capítulo 12, usamos o método dos mínimos quadrados para desenvolver a equação de regressão esti- 
mada que mais bem aproximava a relação em linha reta entre as variáveis dependente e independente. Essa 
mesma abordagem é usada para desenvolver a equação de regressão múltipla estimada. O critério dos 


mínimos quadrados é reformulado da seguinte maneira: 


CRITÉRIO DOS MÍNIMOS QUADRADOS 


mín Xy; — 5? 


(13.4) 


Figura 13.1 O processo de estimação da regressão múltipla 


Modelo de Regressão Múltipla 
у= В+ Вуху + В+ e А + є 


Dados amostrais: 
x » 


Equação de Regressão Múltipla 
E) = Bo + By, + By tn Вр 


Bo В.В... B, são 


parâmetros desconhecidos 


Calculam a Equação de 


Regressão Múltipla Estimada 
Î= o tbx tbt by, 


by by by cub, 
fornecem as estimativas de 


Po B, bs -B 


by bj by... b, sio 
estatísticas da amostra 
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em que 
у; = о valor observado da variável dependente para a i-ésima observação 
3i 


o valor estimado da variável dependente para a i-ésima observação 


Os valores estimados da variável dependente são calculados usando-se a equação de regressão múltipla 
estimada: 


ў = ba + bx + bix, ++ bx, 


Conforme mostra a Equação 13.4, o método dos mínimos quadrados usa dados amostrais para produzir os 
valores de bo, by, bz, . . ., b, que transformam em um mínimo о somatório dos resíduos quadráticos [os 
desvios entre os valores observados da variável dependente (y;) e os valores estimados da variável depen- 
dente ($))]. 

No Capítulo 12, apresentamos fórmulas para calcular os estimadores por mínimos quadrados bg e b 
para a equação de regressão linear simples estimada у = by + бух. Com relativamente poucos conjuntos 
de dados, fomos capazes de usar essas fórmulas para calcular by e b, por meio de cálculos manuais. Na 
regressão múltipla, entretanto, a apresentação das fórmulas dos coeficientes de regressão bo, by, by, ...,D, 
envolve o uso de álgebra matricial e está além do escopo deste livro. Portanto, ao apresentar a regressão 
múltipla, concentramo-nos em como é possível usar softwares para obter a equação de regressão estima- 
da e outras informações. A ênfase será a maneira de interpretar a saída (output) de computador em vez de 
como efetuar os cálculos de regressão múltipla. 


Exemplo: Butler Trucking Company 


Como ilustração da análise de regressão múltipla, consideraremos um problema enfrentado pela Butler 
Trucking Company, uma empresa independente de transporte rodoviário de carga do sul da Califórnia. 
Uma parte importante dos negócios da Butler envolve entregas em toda a sua região. Para desenvolver 
melhores programas de trabalho, os gerentes querem estimar o tempo total diário das viagens de seus 
motoristas. 

A princípio, os gerentes acreditavam que o tempo total diário das viagens estaria estreitamente relacio- 
nado com o número de milhas percorridas ao fazerem as entregas diárias. Uma amostra aleatória simples 
de dez tarefas de entrega forneceu os dados apresentados na Tabela 13.1 e o diagrama de dispersão da 
Figura 13.2. Depois de revisar esse diagrama de dispersão, os gerentes aventaram a hipótese de que 
o modelo de regressão linear simples y = fo + Вуху + e poderia ser usado para descrever a relação entre o 
tempo total de viagem (y) e o número de milhas percorridas (x,). 


Tabela 13.1 Dados preliminares da Butler Trucking 


Tarefa de Entrega x, = Milhas Percorridas y = Tempo de Viagem (horas) 
| 100 9,3 
2 50 48 
3 100 8,9 
4 100 6,5 
5 50 42 
6 80 6,2 
7 75 74 
8 65 6,0 
9 90 76 


o 


90 6,1 
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Figura 13.2 Diagrama de dispersão dos dados preliminares da Butler Trucking 


Tempo Total de Viagem (horas) 


50 60 70 80 90 100 


Milhas Percorridas 


A fim de estimar os parámetros Во e 81. foi usado o método dos mínimos quadrados para desenvolver а 
equação de regressão estimada: 


$ = by by, (13.5) 


Na Figura 13.3, apresentamos o resultado do Minitab relativo à aplicação de regressão linear simples 
aos dados da Tabela 13.1. A equacáo de regressáo estimada é: 


$2127 + 0,0678, 


No nível de significáncia 0,05, o valor F de 15,81 e seu correspondente valor p de 0,004 indicam que a 
relação é significativa; ou seja, podemos rejeitar Но: В; = O porque o valor p é menor que а = 0,05. Note 
que a mesma conclusáo é obtida do valor t igual a 3,98 e seu valor p associado de 0,004. Desse modo, 
podemos concluir que a relação entre o tempo total de viagem e o número de milhas percorridas é signi- 
ficativa; tempos de viagem mais longos estáo associados a mais milhas percorridas. Com um coeficiente 
de determinagáo (expresso como uma porcentagem) de R-sq = 66,4%, vemos que 66,4% da variabilida- 
de relativa ao tempo de viagem podem ser explicados pelo efeito linear do número de milhas percorridas. 
Essa conclusão é razoavelmente boa, mas os gerentes quiseram considerar o acréscimo de uma segunda 
variável independente para explicar uma parte da variabilidade restante na variável dependente. 

Ao tentar identificar outra variável independente, os gerentes acharam que o número de entregas tam- 
bém poderia contribuir para o tempo total de viagem. Os dados da Butler Trucking, com o acréscimo do 
número de entregas, são apresentados na Tabela 13.2. À solução computadorizada do Minitab, tendo as 
milhas percorridas (ху) e o número de entregas (x,) como variáveis independentes, é mostrada na Figura 
13.4. A equação de regressão estimada é: 


ў = —0,869 + 0,0611x,+ 0,923x, (13.6) 
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Figura 13.3 Saída de dados do Minitab referente à Butler Trucking com uma variável independente 
p 


The regression equation is ' « a s i 
Time = 1.27 + 0.0678 Miles a uu F 
; a E * 4 
i Predictor *Coef SE Coef Ts P ^om 
Constant 1.274 1.401" 0.91 0.390 * 7 | 
Н Miles ; 0.06783 0.01706 3.98 0.004 * , é | 
5 = 1.002 R-sq = 66.4%  R-sq(adj) = 62.2% | 
Analysis of Variance a b 
; - ^ o ; [ 
i i } 
p " SOURCE DF ss MS ОЕ P 
Regression 1 15.871 15.871 15.81 0.004, * 
Residual Error 8 ' 8.029 1.004 “a $0. 
Total 9 23.900 . ol Ro T 
M PERMITEN 


Na próxima seção, discutiremos o uso do coeficiente de determinação múltiplo para medir o grau de 
eficiência de ajuste que é proporcionado pela equação de regressão estimada. Antes de fazê-lo, vamos exa- 
minar mais cuidadosamente os valores de b, = 0,0611 e b, = 0,923 na Equação 13.6. 


Nota sobre a Interpretacáo de Coeficientes 


A esta altura, pode-se fazer uma observação sobre a relação entre a equação de regressão estimada, tendo 
somente as milhas percorridas como a variável independente, e a equação que inclui o número de entre- 
gas como a segunda variável independente. O valor de b; não é o mesmo em ambos os casos. Na regres- 
são linear simples, interpretamos b, como uma estimativa da alteração em y correspondente à alteração de 
uma unidade na variável independente. Na análise de regressão múltipla, a interpretação deve ser bastan- 
te modificada. Ou seja, na análise de regressão múltipla, interpretamos cada coeficiente de regressão da 
seguinte maneira; b, representa uma estimativa da alteração em y correspondente à alteração de uma uni- 
dade em x; quando todas as outras variáveis independentes se mantêm constantes. No exemplo da Butler 


- Trucking envolvendo duas variáveis independentes, 5, é igual a 0,0611. 


Tabela 13.2 Dados da Butler Trucking tendo as milhas percorridas (Х|) 
e o número de entregas (x?) como variáveis independentes 


Tarefa de xy = Milhas ху = Número y = Tempo de Viagem 
Entrega Percorridas de Entregas Deliveries (horas) 
| ‚100 4 93 
2 50 3 48 
3 100 4 89 
4 100 2 6,5 
5 50 2 42 
6 80 2 62 
7 75 3 74 
8 65 4 6,0 
9 90 3 7,6 
10 90 2 6,1 
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Figura 13.4 Saída de dados do Minitab para a Butler Trucking com duas variáveis independentes 


The regression equation is 


Time = - 0.869 + 0.0611.Miles + 0.923 Deliveries è 
. Predictor Coef SE Coef T P ! 

Constant -0.8687 0.9515 -0.91 0.392 

Miles 0.061135 0.009888 6.18 0.000 

Deliveries 0.9234 0.2211 4.18 0.004 

S = 0.5731  R-sq = 90.4$  R-sqg(adj) = 87.6% ' 
, Analysis of Variance H 
d 
, SOURCE DF ss MS F p 1 

Regression 2 21.601 10.800 32.88 0.000 ` 

Residual Error 7 2.299 0.328 

Total 9 23.900 


Assim, 0,0611 é a estimativa do aumento esperado no tempo de viagem correspondente ao aumento de 1 
milha na distância percorrida quando o número de entregas é mantido constante. Similarmente, desde que 
b, é igual а 0,923, a estimativa do tempo de viagem esperado correspondente ao aumento de uma entrega 
quando o número de milhas percorridas é mantido constante é 0,923 horas. 


Exercícios 


Nota para o estudante: Os exercícios que envolvem dados, nesta e nas seções subseqüentes, foram ideali- 
zados para serem resolvidos com o auxílio de um software de computador. 


Métodos 


1. A equação de regressão estimada de um modelo que envolve duas variáveis independentes e dez 
observações é a seguinte: 


$ = 29,1270 + 0,5906:,-- 0,4980»; 


a. Interprete b, e b, nessa equação de regressão estimada. 
b. Estime y quando x, = 180 e x, = 310. 


2. Considere os seguintes dados referentes a uma variável dependente y e duas variáveis independentes, 


X; € Xy: 
x х y 
30 12 94 
47 10 108 
25 17 12 
SI l6 178 
40 5 94 
51 19 175 
74 7 170 
36 12 117 
59 13 142 
76 16 211 


a. Desenvolva uma equação de regressão estimada relacionando у com ху. Estime y se x, = 45. 

b. Desenvolva uma equação de regressão estimada relacionando y com x,. Estime y se x; = 15. 

c. Desenvolva uma equação de regressão estimada relacionando y com x, e com x». Estime y se x, = 
45 ех = 15. 
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3. Em uma análise de regressão envolvendo 30 observações foi obtida a seguinte equação de regressão 
estimada. 

ў = 17,6 + 3,8х; + 2,3х, + 7,6x3 + 2,7х4 
a. Interprete bi, b», b, e b, nessa equação de regressão estimada. 
b. Estime y quando x, = 10, x; = -5,x4 = 1 e x4 —2. 

Aplicacóes 

4. Uma loja de calçados desenvolveu a seguinte equação de regressão estimada relacionando as vendas 
com o investimento em estoques e os gastos de propaganda: 

ў = 25 + 10x, + 8x, 

em que 

X, = investimento em estoques (US$ 1.000) 

X, = gastos de propaganda (US$ 1.000) 

y = vendas (US$ 1.000) 
a. Estime as vendas resultantes de um investimento de US$ 15 mil em estoques e um orçamento de 

propaganda de US$ 10 mil. 

b. Interprete b, e b, nessa equação de regressão estimada. 

5. O proprietário da Showtime Movie Theaters, Inc., gostaria de estimar semanalmente a receita bruta 
em função dos gastos de propaganda. Os dados históricos de uma amostra de oito semanas são os 
seguintes: 

Receita Bruta Propaganda de Propaganda de 
Semanal Televisáo Jornal 
(em milhares de dólares) (em milhares de dólares) (em milhares de dólares) 
96 50 " L5 
90 2,0 2,0 
95 40 1,5 
92 2,5 25 
95 3,0 33 
94 3,5 2,3 
94 2,5 42 
94 3,0 2,5 
а. Desenvolva uma equagáo de regressáo estimada, sendo а quantia gasta em propaganda de televisáo 
a variável independente. 
b. Estabeleça uma equação de regressão estimada, sendo a quantia gasta em propaganda de televisão 
e a quantia gasta em propaganda de jornal as variáveis independentes. 
c. O coeficiente da equação de regressão estimada correspondente aos gastos de propaganda de tele- 
visão é idêntico nos itens (a) e (b)? Interprete o coeficiente em cada caso. 
d. Qual é a estimativa da receita bruta semanal de uma semana em que são gastos US$ 3.500 em pro- 
paganda de televisão e US$ 1.800 em propaganda de jornal? 
6. No beisebol, o sucesso de uma equipe fregiientemente é considerado uma função do seu desempenho 


para rebater e arremessar a bola. Uma medida do desempenho da equipe rebatedora é o número de 
home runs! que esse time faz, e uma medida do desempenho da equipe arremessadora (pitchers) é a 
média de runs conquistados por ela. Geralmente, acredita-se que as equipes que acertam mais home 
runs e que recebem uma média menor de runs da outra equipe vencerão uma porcentagem maior dos 
jogos disputados. Os dados a seguir apresentam a porcentagem de partidas ganhas (PPG), o número 
de home runs (HR) feitos pela equipe e a média de runs recebidos (MRR) da equipe adversária refe- 
rentes às 16 equipes da National League na temporada de 2003 da Major League Baseball 
(http://www.usatoday, 7 de janeiro de 2004). 


1 NT: Home run — Uma rebatida certeira, para longe, que permite ao rebatedor percorrer todas as bases e marcar um run [pontua- 
ção por percorrer (tocar) de maneira bem-sucedida todas as bases] (Beisebol). 
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MRR (Média MRR (Média 
de Runs de Runs H 
РРС (96 de HR (Número Recebidos PPG (96 de HR (Número Recebidos 
Partidas de Home da Equipe Partidas de Home Яа Equipe ARQUIVO 

Equipe Ganhas) Runs Feitos)  Adversária) Equipe Ganhas) Runs Feitos) Adversária) DA INTERNET 
Arizona 0,519 152 3,857 Milwaukee 0,420 . 196 5,058 MLB 
Atlanta 0,623 235 4,106 Montreal 0,512 144 4,027 

Chicago 0,543 172 3,842 Nova York 0,410 124 4,517 

Cincinnati 0,426 182 5,127 Philadelphia 0,531 166 4072 

Colorado 0,457 198 5,269 Pittsburgh 0,463 163 4,664 

Florida 0,562 157 4,059 San Diego 0,395 128 4,904 

Houston 0,537 191 3,880 San Francisco 0,621 180 3,734 

Los Angeles 0,525 124 3,162 St. Louis 0,525 196 4,642 


a. Determine a equação de regressão estimada que possa ser usada para prever a porcentagem de par- 
tidas ganhas, dado o número de home runs da equipe. 

b. Estabeleça a equação de regressão estimada que possa ser utilizada para prever a porcentagem de 
partidas ganhas, dada a média de runs recebidos da equipe que faz os arremessos. . 

c. Elabore a equação de regressão estimada que possa ser usada para prever a porcentagem de partidas 
ganhas, dado o número de home runs e a média de runs recebidos da equipe que faz os arremessos. 

d. Na temporada de 2003, San Diego venceu somente 39,5% das partidas que disputou, o índice mais 
baixo da National League. Para melhorar seu desempenho no ano seguinte, a equipe está tentando 
contratar novos jogadores que aumentem para 180 o número de home runs feitos pela equipe e dimi- 
nuam para 4,0 a média de runs recebidos da equipe que faz os arremessos, Use a equação de regres- 
são estimada desenvolvida no item (c) para estimar a porcentagem de jogos que San Diego vencerá 
se a equipe fizer 180 home runs e se a média de runs recebidos da equipe adversária for 4,0. 


7. Os desenhistas (designers) de mochilas backpack usam materiais exóticos, por exemplo, supernáilon 
Dekrin, polietileno de alta densidade, alumínio de aviação e espuma termomoldada para produzir 
mochilas que se ajustam confortavelmente e distribuem o peso para eliminar pontos de pressão. Os 
dados a seguir apresentam a capacidade (centímetros cúbicos), avaliação do conforto e o preço de dez 
mochilas backpack testadas pela Outside Magazine. O conforto foi medido usando-se uma escala de 
1 a 5, sendo que a classificação 1 representa um conforto médio е a classificação 5 representa um con- 
forto excelente (Outside Buyer's Guide, 2001). 


Fábrica e Modelo Capacidade Conforto Preço (US$) 

Camp Trails Paragon Il 70.955 2 190 

EMS 5500 90.128 3 219 

Lowe Alpomayo 90 + 20 90.128 4 249 “ 
Marmot Muir 77.019 3 249 - ARQUNO 
Kelly Bigfoot 5200 85212 4 250 DA INTERNET 
Gregory Whitney 90.128 4 340 Backpack 
Osprey 75 77.019 4 389 

ArcTeryx Bora 95 90.128 5 395 

Dana Design Terraplane LTW 95.044 5 439 

The Works @ Mystery Ranch Jazz 81.935 5 525 


a. Determine a equação de regressão estimada que pode ser usada para prever o preço de uma mochi- 
la backpack, dada a capacidade e a avaliação do conforto. 
b. Interprete b, e Б. . 
c. Preveja o preço de uma mochila backpack com capacidade para 73.741 centímetros cúbicos, sendo 
4 a avaliação do conforto. 
8. A tabela seguinte apresenta o retorno anual, a avaliação da segurança (0 = a mais arriscada, 10 = a 


mais segura) e a taxa de despesa anual referentes a 20 fundos de investimento estrangeiros (Mutual 
Funds, março de 2000). 
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Taxa de 
Avaliacáo de Despesa Retorno 
Fundo Seguranca Anual (96) Anual (96) 

à Accessor Int'l Equity "Adv" 71 ‚59 49 
ARQUIVO Aetna “I” International 72 35 52 
DA INTERNET Amer Century Int'l Discovery "Inv" 6,8 68 89 
ForFunds Columbia International Stock 71 56 ` 58 
Concert Inv “A” Int'l Equity 62 2,16 13t 

Dreyfus Founders Int'l Equity “F” 74 ,80 59 

Driehaus International Growth 6,5 ,88 99 

Excelsior "Inst" Int'l Equity 70 0,90 53 

Julius Baer International Equity ` 69 ,79 77 

Marshall international Stock "Y" 72 ,49 54 

MassMutual Int! Equity "S" ГА! 1,05 57 

Morgan Grenfell Int'l Sm Cap "Inst" 7,7 1,25 6] 

New England "A" Int'l Equity 70 .83 88 
Pilgrim Int'l Small Cap "A" 70 ‚94 122 

Republic International Equity 72 09 7] 

Sit International Growth 6,9 1,50 51 

Smith Barney "A" Int'l Equity 7,0 1,28 60 

State St Research "S" Int' Equity 74 65 . 50 

Strong International Stock 6,5 61 93 

Vontobel International Equity 70 50 47 


a. Desenvolva uma equação de regressão estimada relacionando o retorno anual com a avaliação da 
segurança e a taxa de despesa anual. 
b. Estime o retorno anual de uma firma que tem uma avaliação de segurança igual a 7,5 e taxa de des- 
pesa anual iguala 2. 
9. Dois especialistas apresentaram listas subjetivas de distritos escolares que consideram estar entre os 
melhores do país. Em relação a cada distrito escolar, foram apresentados o tamanho médio da classe, 
a pontuação média no SAT? e a porcentagem de estudantes que freqüentavam um curso superior de 


quatro anos. 
Tamanho Pontuação % dos que Frequentam um 

Distrito Médio da Classe Média no SAT Curso Superior de Quatro Anos 
Blue Springs, MO 25 1083 74 
Garden City, NY 18 997 77 
DA INTERNET Indianapolis, IN 30 716 40 
Schools Newport Beach, CA 26 977 51 
Novi, MI 20 980 53 
Piedmont, CA 28 1042 75 
Pittsburg, PA 21 983 66 
Scarsdale, NY 20 110 87 
Wayne, РА 22 1040 85 
Weston, MA 21 1031 89 
Farmingdale, NY 22 947 81 
Маглагопеск, МҮ 20 1000 69 
Mayfield, OH 24 1003 48 
Morristown, NJ 22 972 64 
New Rochelle, NY 23 1039 55 
Newtown Square, PA 17 963 79 
Omaha, NE 23 1059 8! 
Shaker Heights, OH 23 940 82 


2 NT: SAT (Sigla de Scholastic Aptitude Test) — Um exame usado pelas universidades como parte do processo de seleção de estudan- 
tes para admissão ao curso superior. 
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a. Usando esses dados, desenvolva uma equação de regressão estimada relacionando a porcentagem 
de estudantes que freqüentam um curso superior de quatro anos com o tamanho médio da classe e 
a pontuação média no SAT. 

b. Estime a porcentagem de estudantes que freqüentam um curso superior de quatro anos se o tama- 
nho médio da classe é 20 e a pontuação média no SAT é 1.000. 


10. A National Basketball Association (NBA) registra uma série de estatísticas a respeito de cada time. 
Quatro dessas estatísticas são a porcentagem de jogos ganhos (PJG), a porcentagem de “field goals? 
(FG%), a porcentagem de lances de três pontos feitos pelo time adversário (%3Pt Adv) e o número 
de turnovers* cometidos pelo time adversário (Turnover Adv). Os dados a seguir apresentam os valo- 
res dessas estatísticas correspondentes às 29 equipes da NBA e se referem a uma parte da temporada 
de 2004 (http://www.nba.com, 3 de janeiro de 2004). 


96 3Pt Turnover %3Pt Turnover 
Equipe PJG FG% Adv Adv Equipe PJG FG% Adv Adv 
Atlanta 0,265 0,435 034 3,206 Minnesota 0,677 0,473 0,348 3,839 
Boston 0,471 0,449 0,369 6,176 New Jersey 0,563 0,435 0,338 7,063 
Chicago 0313 0417 0,372 5,031 New Orleans 0,636 0,421 0,330 6,909 
Cleveland 0,303 0,438 0,345 2,515 NovaYork 0,412 0,442 0,330 3,588 
Dallas 058! 0439 0332 5,000 Orlando 0,242 0,417 0,360 4,242 
Denver 0,606 0,431 0,366 7,818 Philadelphia 0,438 0,428 0,364 6,938 
Detroit 0,606 0,423 0,262 5,788 Phoenix 0,364 0,438 0,326 6,515 
Golden State 0,452 0,445 0,384 4,290 Portland 0,484 0,447 0,367 2,548 
Houston 0,548 0,26 0324 3,161 Sacramento 0,724 0,466 0327 5,207 
Indiana 0,706 0,428 0317 5,647 San Antonio 0,688 0,429 0,293 5,344 
LA. Clippers 0,464 0,424 0,326 4,357 Seattle 0,33 0,436 0,350 6.767 
LA, Lakers 0,724 0,465 0,323 6,000 Toronto 0,516 0,424 0,314 4,129 
Memphis 0,485 0,432 0,358 7,848 Utah 0,531 0,456 0,368 5,469 
Miami 0,424 0,410 0,369 4,970 Washington 0,300 0,411 0,341 6,133 
Milwaukee 0,500 0,38 0,349 4,750 


Legenda: PJG — Porcentagem de Jogos Ganhos 
FG% — Porcentagem de Field Goals 
%3Pt Adv — Porcentagem de lances de três pontos feitos pelo time adversário 
Turnover Adv — Número de turnovers cometidos pelo time adversário 


a, Determine a equação de regressão estimada que possa ser usada para prever a porcentagem de 
jogos ganhos, dada a porcentagem de field goals feitos pelo time. 

b. Forneça uma interpretação da inclinação da equação de regressão estimada desenvolvida no item (a). 

c. Estipule a equação de regressão estimada que possa ser usada para prever a porcentagem de jogos 
ganhos, dada a porcentagem de field goals feitos pela equipe, a porcentagem de lances de três pon- 
tos feitos pelo adversário da equipe, e o número de turnovers cometidos pelo adversário da equipe. 

d. Discuta as implicações práticas da equação de regressão estimada desenvolvida no item (c). 

e. Estime a porcentagem de jogos ganhos pela equipe, com os seguintes valores para as três variáveis 
independentes: FG% = 0,45, %3Pt Adv = 0,34 e Turnover Adv = 17. 


13.3 COEFICIENTE DE DETERMINAÇÃO MÚLTIPLO 


Na regressão linear simples, mostramos que a soma total dos quadrados pode ser dividida em dois com- 
ponentes: a soma dos quadrados da regressão e a soma dos quadrados dos erros. O mesmo procedimento 
se aplica à soma dos quadrados na regressão múltipla. 


3 NT: Field goal – Um lance feito da quadra que vale dois pontos, e se for de certa distância (no basquetebol profissional, no míni- 
mo 7,62 m), três pontos (Basquete). 
4 NT: Turnover Bola perdida — O time perde a posse de bola devido a uma falha ou falta cometida (Basquete). 
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O acréscimo de 
variáveis 
independentes faz 
que os erros de 
previsão se 
tomem menores, 
reduzindo assim a 
soma de 
quadrados dos 
erros, SSE. Uma 
vez que SSR = 
SST – SSE, 
quando SSE 
toma-se menor, 
SSR toma-se 
maior, fazendo 
com que А? = 
SSR/SST se eleve. 


Se uma variável é 
acrescentada 20 
modeto, R? 
torna-se maior 
mesmo que a 
variável 
acrescentada não 
seja estatisticamente 
significativa. O 
coeficiente de 
determinação 
múltipio ajustado 
compensa o 
número de 
variáveis 
independentes 
no modelo. 
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RELAÇÃO ENTRE SST, SSR E SSE 
SST = SSR + SSE (13.7) 


сеп que 
SST = soma total dos quadrados = X(y; — y? 
SSR = soma dos quadrados da regressão = ($;— y)? 
SSE = soma dos quadrados dos erros = X(y,- 9,2 


Em virtude da dificuldade dos cálculos das três somas de quadrados, recorremos a softwares para deter- 
minar esses valores. A parte da análise de variância da saída de dados do Minitab da Figura 13.4 apresen- 
ta os três valores do problema da Butler Trucking com duas variáveis independentes: SST = 23,900, 
SSR = 21,601 e SSE = 2,299. Com somente uma variável independente (o número de milhas percorri- 
das), a saída do Minitab da Figura 13.3 mostra que SST = 23,900, SSR = 15,891 e SSE = 8,029. O valor 
de SST é idêntico em ambos os casos porque ele não depende de ?, mas SSR aumenta e SSE decresce 
quando uma segunda variável (número de entregas) é acrescentada. A implicação é que a equação de 
regressão múltipla estimada proporciona melhor ajuste para os dados observados. 

No Capítulo 14, usamos o coeficiente de determinação 12 = SSR/SST, para medir a eficiência de ajuste 
da equação de regressão estimada. O mesmo conceito se aplica à regressão múltipla. O termo coeficien- 
te de determinação múltiplo indica que estamos medindo a eficiência de ajuste da equação de regressão 
múltipla estimada. O coeficiente de determinação múltiplo, designado R?, é calculado da seguinte maneira: 


COEFICIENTE DE DETERMINAÇÃO MÚLTIPLO Е 
SSR 
R = А 
SST (13.8) 


O coeficiente de determinação múltiplo pode ser interpretado como a proporção da variabilidade da variá- 
veł dependente que pode ser explicada pela equação de regressão múltipla estimada. Portanto, quando é 
multiplicado por 100, ele pode ser interpretado como a porcentagem da variabilidade em y que pode ser 
explicada pela equação de regressão estimada. 

No exemplo da Butler Trucking, com duas variáveis independentes, sendo SSR = 21,601 e SST = 
23,900, temos: 

› _ 21,601 _ 
= 23,900 7 0994 
Portanto, 90,4% da variabilidade no tempo de viagem y são explicados pela equação de regressão múlti- 
pla estimada, sendo as milhas percorridas e o número de entregas as variáveis independentes. Na Figura 
13.4, notamos que o coeficiente de determinação múltiplo também é fornecido pela saída do Minitab; ele 
é designado por R-sq = 90,4%. 

A Figura 13.3 mostra que o valor de R-sq da equação de regressão estimada com somente uma variá- 
vel independente, isto é, o número de milhas percorridas (x;), é 66,4%. Desse modo, a porcentagem de 
variabilidade nos tempos de viagem que é explicada pela equação de regressão estimada se eleva de 66,4% 
para 90,4% quando o número de entregas é adicionado como uma segunda variável independente. Em 
geral, R2 sempre se eleva quando são adicionadas variáveis independentes ao modelo. 

Muitos analistas preferem ajustar R? ao número de variáveis independentes a fim de evitar uma superes- 
timação do impacto de se adicionar uma variável independente à quantidade de variabilidade explicada pela 
equação de regressão estimada. Com n denotando o número de variações e p denotando o número de variá- 
veis independentes, o coeficiente de determinação múltiplo ajustado é calculado da seguinte maneira: 


COEFICIENTE DE DETERMINAÇÃO MÚLTIPLO AJUSTADO 
-1 
R =1- (1 -R — (13.9) 
n—p-l 


Quanto ao exemplo da Butler Trucking, com n = 10 e p = 2, temos: 
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10— 1 
R 
a-1-( 090 у» ү 0,88 


Assim, depois de ajustarmos as duas variáveis independentes, obtemos um coeficiente de determinação 
múltiplo ajustado igual a 0,88. Esse valor é fornecido pela saída do Minitab da Figura 13.4 como 
R-sq(adj) = 87,6%; O valor que calculamos difere porque usamos um valor arredondado de R? no cálculo. 


NOTAS E COMENTÁRIOS 


Se o valor de R2 for pequeno e o modelo contiver um número grande de variáveis independentes, о coe- 
ficiente de determinação ajustado pode assumir um valor negativo; nesses casos, o Minitab fixa o coe- 
ficiente de determinação ajustado em zero. 


Exercícios 


Métodos 


11. No exercício 1 foi apresentada a equação de regressão estimada baseada em dez observações: 
9 = 29,1270 + 0,5906x, + 0,4980x, 


Os valores de SST e SSR são 6724,125 e 6216,375, respectivamente. 

a. Encontre a SSE. 

b. Calcule R2. 

c. Calcule R2. 

d. Comente a eficiéncia de ajuste. - 
12. No exercício 2, foram fornecidas dez observações de uma variável dependente y e duas variáveis 

independentes x, e х›; para esses dados, SST = 15.182,9 е SSR = 14.052,2. 


a. Calcule R2. 
b. Calcule R2 AUTOTESTE 
c. À equação de regressão estimada explica a grande quantidade de variabilidade dos dados? 

Explique. 


13. No exercício 3, foi apresentada a seguinte equação de regressão estimada baseada em 30 observações: 
$ = 17,6 + 3,8x + 2,3x, + 7,6x4 + 2,7х4 


Os valores de SST e SSR são 1.805 e 1.760, respectivamente. 
a. Calcule R2. 

b. Calcule R2. 

c. Comente a eficiência de ajuste. 


Aplicacóes 


14. No exercício 4, foi apresentada a seguinte equação de regressão estimada relacionando as vendas com 
o investimento em estoques e os gastos de propaganda: 


$ = 25 + 10x, + 8x, 


Os dados usados para desenvolver o modelo foram extraídos de uma pesquisa de dez lojas; em rela- 
ção a esses dados, SST = 16.000 e SSR = 12.000. ` 
a. Calcule R2 em relação à equação de regressão estimada dada. 
b. Calcule R2. 
c. O modelo parece explicar uma grande quantidade de variabilidade nos dados? Explique. 

15. No exercício 5, o proprietário da Showtime Movie Theaters, Inc., utilizou a análise de regressão múl- 
tipla para prever a receita bruta (у) em função da propaganda de televisão (ху) e da propaganda em 
jornais (x,). A equação de regressão estimada foi: 


7 


AUTOTESTE 


ӯ = 832 + 229x, + 1,30x; 
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16. 


17. 


18. 


A solução computadorizada forneceu SST = 25,5 e SSR = 23,435. 
a. Calcule e interprete R2 e R2. 


b. Quando a propaganda de televisão era a única variável independente, R? = 0,653 е R? = 0,595. 
Vocé prefere os resultados da regressáo mültipla? Explique. 

No exercício 6, foram apresentados dados sobre a porcentagem de jogos ganhos, o número de home 

runs do time e a média de runs aplicados pela equipe arremessadora, correspondentes às 16 equipes 

da National League na temporada de beisebol da Major League para 2003 (http://www.usatoday, 7 de 

janeiro de 2004). 

a. A equação de regressão estimada que utiliza somente o número de home runs como variável inde- 
pendente para prever a porcentagem de jogos ganhos proporcionou um bom ajuste? Explique. 

b. Discuta os benefícios de se usar tanto o número de home runs efetuados como a média de runs 
recebidos da equipe adversária para prever a porcentagem de jogos ganhos. 


No exercício 9, foi desenvolvida uma equação de regressão estimada relacionando a porcentagem de 
estudantes que frequentam um curso superior de quatro anos com o tamanho médio da classe e a pon- 
tuação média no SAT. 

a, Calcule e interprete R? e R2. 

b. A equação de regressão estimada proporciona um bom ajuste para os dados? Explique. 


Consulte o exercício 10, no qual foram registrados dados sobre uma série de estatísticas correspon- 
dentes aos 29 times da National Basketball Association, relativas a uma parte da temporada de 2004 
(http://www.nba.com, 3 de janeiro de 2004). 

a. No item (c) do exercício 10, foi desenvolvida uma equação de regressão estimada relacionando a 
porcentagem de jogos ganhos dada a porcentagem de field goals feitos pela equipe, a porcentagem de 
lances de três pontos feitos pela equipe adversária e o número de turnovers cometidos pela equipe 
adversária. Quais são os valores de R? e R2? 

b. A equacáo de regressáo estimada proporciona um bom ajuste aos dados? Explique. 


13.4 SUPOSIÇÕES DO MODELO 


Na Seção 13.1, apresentamos o seguinte modelo de regressão múltipla: 


MODELO DE REGRESSÃO MÚLTIPLA 
у= В + Ву, + Вх ++ В,х, + є (13.10) 


As suposições sobre o termo de erro e no modelo de regressão múltipla fazem um paralelo com as do 
modelo de regressáo linear simples. 


SUPOSICÓES SOBRE O TERMO DE ERRO E NO MODELO 
DE REGRESSÁO MÚLTIPLA y = fo + fixi +... + yx +€ 
1. O erro є é uma variável aleatória com média, ou valor esperado, igual a zero; ou seja E(e) = 0. 
Implicagáo: Para dados valores de xj, x;, . . ., Xp, O valor esperado, ou média, de y é dado por 


EO) = Bo + By, + Bx + В, (311) 


A Equação 13.11 é a equação de regressão múltipla que apresentamos na Seção 13.1. Nessa equa- 
ção, E(y) representa a média de todos os valores possíveis de y que poderiam ocorrer para deter- 
minados valores de ху, x;, . . ., Xp. 

2. A variância de є é designada о? е é idêntica para todos os valores das variáveis independentes X, 
Xn -© Xy 
Implicação: A variância de y nas proximidades da linha de regressão é igual a 0? e é idêntica para 
todos os valores de x,, Xz, . . Xp. 

3. Os valores de e são independentes. 
Implicação: O tamanho do erro de um conjunto de valores em particular das variáveis independen- 
tes пйо está relacionado com o tamanho do erro de qualquer ошто conjunto de valores. 


Capítulo 13 Regressão Múltipla 


4. О erro є é uma variável aleatória normalmente distribuída que reflete o desvio entre o valor y e o 
valor esperado de y dado por fo + Вуху + Bx; +... + Bpkp 
Implicação: Uma vez que В, B, . . -, В, São constantes para determinados valores de ху, x», . . 
Xp à variável dependente y também é uma variável aleatória normalmente distribuída. 


E 


Para obter mais insight sobre a forma da relação dada pela Equação 13.11, considere a seguinte equa- 
ção de regressão múltipla de duas variáveis independentes: 


EQ) = Bo + By + Вх, 


O gráfico dessa equação é um plano em um espaço tridimensional. A Figura 13.5 apresenta um exemplo 
desse gráfico. Observe que o valor de e mostrado é a diferença entre o valor de y real e o valor de y espe- 
rado, E(y), quando x, = xf e x, = хў. 

Na análise de regressão, o termo variável de resposta freqüentemente é usado em lugar do termo variá- 
vel dependente. Além disso, desde que a equação de regressão múltipla gere um plano ou superfície, seu 
gráfico se denomina superfície de resposta. 


Figura 13.5 Gráfico da equação de regressão da análise de regressão múltipla 
com duas variáveis independentes 


y Valor de y quando 
XXX eE 


Во 


E(y) quando 
Plano correspondente а x =x ex = 


E) = Bo Bo + Bos 


x 


X2 
X 
Ponto correspondente 
x 2xex-2x 


13.5 TESTE DE SIGNIFICÀNCIA 


Nesta seção, mostramos como realizar testes de significância de uma relação de regressão múltipla. Os tes- 
tes de significância que usamos na regressão linear simples foram um teste t e um teste F. Na regressão 
linear simples, ambos os testes produzem a mesma conclusáo; ou seja, se a hipótese nula for rejeitada, con- 
cluiremos que Б; 5 0. Na análise de regressão múltipla, o teste ге o teste F têm propósitos diferentes. 


1. O teste F é utilizado para determinar se existe uma relacáo significativa entre a variável dependente 
e o conjunto de todas as variáveis independentes; referirmo-nos ao teste F como teste de significân- 
cia global. 


2. Se o teste Р exibir uma significância global, o teste г é usado para determinar se cada uma das variá- 
veis independentes individuais é significativa. Um teste / separado é realizado para cada uma das 
variáveis independentes do modelo; referimo-nos a cada um desses testes t como teste de significán- 
cia individual. 

No material que apresentamos a seguir, explicaremos o teste F e o teste t e aplicaremos cada um ao exem- 
pio da Butler Trucking Company. 
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Teste F 


O modelo de regressão múltipla, de acordo com o que foi definido na Seção 13.4, é: 


y = В + Bm + Вх, + FRE + Вх, + є 
As hipóteses do teste F envolvem os parâmetros do modelo de regressão múltipla: 


Н: В, = В =... = В, = 0 
H,: Um ou mais dos parâmetros não são iguais a zero 


Se Ho for rejeitada, o teste nos dá suficientes evidências estatísticas para concluirmos que um ou mais dos 
parâmetros não são iguais a zero e que a relação global entre y e o conjunto de variáveis independentes ху, 
X»... Xp É significativa. Entretanto, se Н não puder ser rejeitada, não teremos evidências suficientes para 
concluir que uma relação significativa está presente. 

Antes de descrevermos as etapas do teste F, precisamos rever o conceito de quadrado médio. Um qua- 
drado médio é a soma dos quadrados dividida por seus graus de liberdade correspondentes. No caso da 
regressão múltipla, a soma total dos quadrados tem п — 1 graus de liberdade, a soma dos quadrados da 
regressão (SSR) tem p graus de liberdade, e a soma dos quadrados dos erros tem n — p — 1 graus de liber- 
dade. Portanto, a regressão média quadrática (MSR) é igual a SSR/p e o quadrado médio devido aos erros 
(MSE) é SSE/(1 — p - 1). 


R 
MSR = E (13.12) 
e 
SE 
MSE = -— (13.13) 
n-p-l1 


Conforme discutimos no Capítulo 12, а MSE fornece uma estimativa sem viés de g2, que é a variân- 
cia do termo de erro e. Se НуВу = f2 =... = B, = О for verdadeira, MSR também fornecerá uma esti- 
mativa de 02, e o valor de MSR/MSE deve estar próximo de 1. Entretanto, se Ho for falsa, MSR superes- 
timará 02, e o valor de MSR/MSE se tornará maior. Para determinar qual tamanho MSR/MSE deve ter 
para rejeitarmos Ho, recorremos ao fato de que se Họ for verdadeira e as suposições sobre o modelo de 
regressão múltipla forem válidas, a distribuição amostral de MSR/MSE será uma distribuição F com Р 
graus de liberdade no numerador e n — p — 1 no denominador. Um resumo do teste F de significáncia na 
regressão múltipla é apresentado a seguir. 


TESTE f DE SIGNIFICÂNCIA GLOBAL 


Н; В, = В =... = В, = 0 
Нә: Um ou mais dos parámetros não são iguais a zero 
ESTATÍSTICA DE TESTE 
MSR 
= DDD 13.14 
MSE аза) 
REGRA DE REJEIÇÃO 
Critério do valor p: Rejeitar Не se o valor p = a 


Critério do valor crítico: —Rejeitar Ho se F = Fy 


em que Ё. baseia-se em uma distribuição F com p graus de liberdade no numerador e n — p – 1 
graus de liberdade no denominador. 


Apliquemos o teste F ao problema de regressáo mültipla da Butler Trucking Company. Com duas 
variáveis independentes, as hipóteses sáo escritas da seguinte maneira: 


Hy By = В = 0 
Hx B, e/ou В; não são iguais a zero 


A Figura 13.6 é uma saída de dados do Minitab referente ao modelo de regressão múltipla, tendo as milhas 
percorridas (ху) e o número de entregas (x;) como as variáveis independentes. Na parte da análise de 
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variância da saída de computador, notamos que MSR = 10,9 e MSE = 0,328. Usando a Equação 13.14, 
obtemos a estatística de teste. 
10,8 


F- 0328 = 32,9 


Figura 13.6 Saída de dados do Minitab para о problema da Butler Trucking com duas variáveis 
independentes: as milhas percorridas (x,) e o número de entregas (x;) 


The regression equation is i 
Time = - 0.869 + 0.0611 Miles + 0.923 Deliveries ` 
Predictor Coef SE Coef T P 

' Constant —0.8687 0.9515 —0.91 0.392 ! 
Miles 0.061135 0.009888 6.18 0.000 


Deliveries 0.9234 0.2211 4.18 0.004 | 
S = 0.5731 В-ва = 90.4%  R-sq(adj) = 87.6% 


' Analysis of Variance 


SOURCE рғ 55 MS F p 
Regression 2 21.601 10.800 232.88 0.000 
Residual Error 7 2.299 0.328 . 
Total 9 23.900 . 


a. - ~- TEM e - o 4 


Observe que o valor F na saída do Minitab é F — 32,88; o valor que calculamos difere porque usamos 
valores arredondados para MSR e MSE no cálculo. Usando a = 0,01, o valor p = 0,0000 na última colu- 
па da tabela de análise de variância (Figura 13.6) indica que podemos rejeitar Ну: Ву = f, = O porque o 
valor p é menor que а = 0,01. Alternativamente, a Tabela 4 do Apéndice B mostra que com dois graus de 
liberdade no numerador e sete graus de liberdade no denominador, Foo; = 9,55. Com 32,9 > 9,55, rejei- 
tamos Ho: В; = В = 0 e concluímos que há uma relação significativa entre o tempo de viagem y e as duas 
variáveis independentes, as milhas percorridas e o número de entregas. 

Conforme observamos anteriormente, o erro médio quadrático fornece uma estimativa sem viés de 02, 
que é a variância do termo de erro e. Consultando a Figura 13.6, notamos que a estimativa de g2 é MSE 
= 0,328. A raiz quadrada de MSE é a estimativa do desvio padrão do termo de erro. Conforme definimos 
na Seção 12.5, esse desvio padrão é chamado de erro padrão da estimativa e é designado por s. Portanto, 
s = YMSE = V0,328 = 0,573. Note que o valor do erro padrão da estimativa aparece na saída do 
Minitab da Figura 13.6. 


A Tabela 13.3 é a tabela de análise de variância (ANOVA) geral que fornece os resultados do teste F de 
um modelo de regressão múltipla. O valor da estatística de teste F aparece na última coluna e pode ser com- 
parado а F, com p graus de liberdade no numerador e n — p – 1 graus de liberdade no denominador para se 
tomar a conclusão do teste de hipótese. Ao revisar a saída do Minitab referente à Butler Trucking Company 
da Figura 13.6, notamos que a tabela de análise de variância do Minitab contém essa informação. Além 
disso, o Minitab também fornece o valor p correspondente à estatística de teste F. 


Tabela 13.3 Tabela ANOVA de um modelo de regressão múltipia com p variáveis independentes 


Soma Graus de Quadrado 
Fonte dos Quadrados Liberdade Médio F 
Regressão SSR b мА =R Е = MSR 
р MSE 
Erro SSE n-p-l MSE = SSE 
п-р- 1 


Total SST n-! 
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Teste t 


Se o teste F demonstrar que a relação de regressão múltipla é significativa, um teste t pode ser realizado 
para determinar a significáncia de cada um dos parámetros individuais. O teste 7 de significáncia indivi- 
dual é o seguinte: 


TESTE t DE SIGNIFICÁNCIA INDIVIDUAL 
Para qualquer parámetro 8, 


Н; В, = 0 
Вә: В, + 0 
ESTATÍSTICA DE TESTE 
b, 
= = (13.15) 
So, 
REGRA DE REJEIÇÃO 
Critério do valor p: Rejeitar Hy se o valor p = a 


Critério do valor crítico: Кејейаг Ho se t = tp ou set = top 
em que tap baseia-se em uma distribuição ! com n – p — 1 graus de liberdade. 


Na estatística de teste, s, é a estimativa do desvio padrão de b;. O valor de s, será fornecido pelo software. 

Vamos realizar o teste г do problema de regressão da Butler Trucking. Consulte a parte da Figura 13,6 
que apresenta a saída de dados do Minitab correspondente aos cálculos da razão г. Os valores de b}, bz, 55, 
ES, são os seguintes: 


b, = 0,061135 s, = 0,009888 
b, = 09234 зь = 02211 


Usando a Equação 13.15, obtemos a estatística de teste das hipóteses que envolvem os parámetros 8, e f. 


t = 0,061135/0,009888 = 6,18 
t = 0,9234/0,2211 = 4,18 


Note que ambos os valores da razão t e os correspondentes valores p são fornecidos pela saída de dados 
do Minitab na Figura 13.6. Usando а = 0,01, os valores p 0,000 e 0,004 apresentados pelo Minitab indicam 
que podemos rejeitar Hy: 8, = 0 e Hy: 8, = 0. Portanto, ambos os parâmetros são estatisticamente significa- 
tivos. Alternativamente, a Tabela 2 do Apéndice B demonstra que com n - p - 1 = 10—2— 1 = 7 graus de 
liberdade, 1555 = 3,499. Com 6,18 > 3,499, rejeitamos Ho: B, = 0. Similarmente, com 4,18 > 3,499, rejei- 
tamos Hy: B; = 0. 


Multicolinearidade 


Utilizamos o termo variável independente na análise de regressão ao fazermos referência a qualquer variá- 
vel que é usada para prever ou explicar o valor da variável dependente. O termo não significa, entretanto, 
que as variáveis independentes sejam, em si mesmas, independentes no sentido estatístico. Ao contrário, a 
maioria das variáveis independentes de um problema de regressão múltipla estão, até certo ponto, correla- 
cionadas. Por exemplo, no caso da Butler Trucking envolvendo duas variáveis independentes х; 
(milhas percorridas) e x, (número de entregas), poderemos tratar as milhas percorridas como a variável 
dependente e o número de entregas como a variável independente para determinar se essas duas mesmas 
variáveis estão relacionadas entre si. 

Poderíamos, então, calcular o coeficiente de correlação da amostra, "xx, Para determinar o grau em que 
as variáveis estão relacionadas. Esse cálculo produz "rm 0,16. Desse modo, encontramos certo grau de 
associação linear entre as duas variáveis independentes. Na análise de regressão múltipla, o termo multi- 
colinearidade refere-se à correlação entre as variáveis independentes. 

Para oferecermos uma perspectiva melhor dos potenciais problemas da multicolinearidade, considere- 
mos uma modificação no exemplo da Butler Trucking. Em vez de x, ser o número de entregas, admitamos 
que x, denote o número de galões de combustível consumidos. Evidentemente, x, (as milhas percorridas) 
e x, estão relacionadas; ou seja, sabemos que o número de galões de gasolina utilizados depende do núme- 
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ro de milhas percorridas. Portanto, poderíamos concluir logicamente que ху e x, são variáveis independen- 
tes altamente correlacionadas. 

Suponha obtermos a equação ў = by + bjx, + bax e descobrirmos que o teste F demonstra que a rela- 
ção é significativa. Suponha então realizarmos um teste t em fj; para determinar se 8; # 0 e não possamos 
rejeitar Но: В, = O. Esse resultado significa que o tempo de viagem não está relacionado com as milhas 
percorridas? Não necessariamente. O que provavelmente significa é que, com x, já estando no modelo, x, 
não contribui significativamente para determinar o valor de y. Essa interpretação faz sentido em nosso 
exemplo; se soubermos a quantidade de gasolina consumida, não obtemos muita informação adicional útil 
para prever y ao sabermos o número de milhas percorridas. Similarmente, um teste £ poderia levar-nos а 
concluir que 8, = O considerando que, com x, no modelo, saber qual é a quantidade de gasolina consumi- 
da não nos ajuda muito. 

Para resumir, em testes f da significância de parâmetros individuais, a dificuldade provocada pela multi- 
colinearidade baseia-se no fato de que é possível concluir que nenhum dos parâmetros individuais é signifi- 
cativamente diferente de zero quando um teste F sobre a equação de regressão múltipla individual indica uma 
relação significativa. Esse problema é evitado quando há pouca correlação entre as variáveis independentes. 

Os estatísticos desenvolveram diversos testes para determinar se a multicolinearidade é suficiente- 
mente elevada para causar problemas. De acordo com o teste prático, a multicolinearidade constitui um 
problema potencial se o valor absoluto do coeficiente de correlação da amostra ultrapassar 0,70 em qual- 
quer das duas variáveis independentes. Os outros tipos de teste são mais avançados e estão além do esco- 
po deste livro. 

Se possível, deve-se tentar evitar incluir variáveis independentes que sejam altamente correlacionadas. 
Na prática, entretanto, raramente é possível seguir estritamente essa norma, Quando os tomadores de deci- 
são têm motivos para acreditar na presença de uma multicolinearidade substancial, eles precisam perceber 
que é difícil separar os efeitos das variáveis independentes individuais da variável dependente. 


NOTAS E COMENTÁRIOS 


Costumeiramente, a multicolinearidade não afeta a maneira pela qual executamos nossa análise de 
regressão ou interpretamos o resultado de um estudo. Entretanto, quando a multicolinearidade é grave 
— ou seja, quando duas ou mais das variáveis independentes são altamente correlacionadas –, podemos 
ter dificuldade para interpretar os resultados dos testes / sobre os parâmetros individuais. Além do tipo 
de problema ilustrado nesta seção, casos graves de multicolinearidade têm demonstrado que resultam 
em estimativas pelo método dos mínimos quadrados que tem o sinal errado. Ou seja, em estudos simu- 
lados em que os pesquisadores criaram o modelo de regressão subjacente e depois aplicaram a técnica 
dos mínimos quadrados para desenvolver estimativas de £o, 81, D», etc., foi demonstrado que, sob con- 
dições de elevada multicolinearidade, as estimativas pelo método dos mínimos quadrados podem ter 
um sinal oposto ao do parámetro que é estimado. Por exemplo, 8, poderia ser, de fato, + 10 e Ру, por 
sua vez, poderia vir a ser —2. Desse modo, não se pode acreditar muito nos coeficientes individuais se 
houver a presença de multicolinearidade em grau elevado. 


Exercícios 


Métodos 


19. No exemplo 1, foi apresentada a seguinte equação de regressão estimada baseada em dez observações: 


$ = 29,1270 + 0,5906x, + 0,4980x, 


Aqui, SST = 6724,125, SSR = 6216,375, Sh, = 0,0813 e Sb, = 0,0567. 
a. Calcule MSR e MSE. 

b. Calcule F e execute o teste Р apropriado. Use а = 0,05. 

c. Realize um teste г da significância de 8,. Use a = 0,05. 

d. Realize um teste г da significância de 8,. Use а = 0,05. 


20. Consulte os dados apresentados no exercício 2. A equação de regressão estimada desses dados é: 


ў = 18,4 + 201 + 447% 
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21. 


Aqui, SST = 15.1829, SSR = 14.0522, s, = 02471 e з, = 0,9484. 


a. Teste a relação de significância entre ху, x; e y. Use a = 0,05. 

b. В, é significativo? Use а = 0,05. 

c. 8, é significativo? Use а = 0,05. 

A seguinte equação de regressão estimada foi desenvolvida para um modelo que envolve duas variá- 
veis independentes: 


$ = 40,7 + 863x, + 2,715 


Depois que x, foi retirado do modelo, o método dos mínimos quadrados foi usado para obter uma 
equação de regressão estimada que envolve somente x, como a variável independente: 


ў = 42,0 + 9,015 


a. Apresente uma interpretação do coeficiente de x, em ambos os modelos. 
b. A multicolinearidade poderia explicar por que o coeficiente de x, difere nos dois modelos? Se 
assim for, como isso acontece? 


Aplicacóes 


22. 


23. 


24. 


25. 


No exercício 4, foi apresentada a seguinte equação de regressão estimada relacionando as vendas com 
о investimento em estoques e os gastos em propaganda: 


ў = 25 + 10x, + 8x, 


Os dados usados para desenvolver o modelo foram extraídos de uma pesquisa de dez lojas; para esses 
dados, SST = 16.000 e SSR = 12.000. 

a. Calcule SSE, MSE e MSR. 

b. Use um teste F e o nível de significância 0,05 para determinar se há uma relação entre as variáveis. 


Consulte o exercício 5. 
a. Use а = 0,01 pra testar as hipóteses: 


Hy By = B; = 0 
Hx: В, e/ou В, não são iguais a zero. 


para o modelo y = by + bjx, + Бух + є, em que 


xı = propaganda de televisão (US$ 1.000) 
x» = propaganda de jornal (US$ 1.000) 


b. Use а = 0,05 para testar a significância de [3,. x, deve ser retirado do modelo? 
с. Use а = 0,05 para testar a significância de 8. x, deve ser retirado do modelo? 


Consulte os dados do exercício 6. Use o número de home runs feitos pela equipe e a média de runs 
recebidos da equipe arremessadora para prever a porcentagem de jogos ganhos. 


a. Use o teste F para determinar a significância geral da relação. Qual é a sua conclusão ao nível de 
significância 0,05? 
b. Use o teste г para determinar a significância de cada variável independente. Qual é a sua conclusão 
ao nível de significância 0,05? 
A Barron's realiza uma revisão anual das corretoras on-line, incluindo tanto as corretoras que podem 
ser acessadas por meio de um navegador de internet como as corretoras de acesso direto, as quais 
conectam os clientes diretamente com o servidor de rede da corretora. As ofertas e o desempenho de 
cada corretora são avaliados em seis áreas usando uma pontuação de O a 5 em cada categoria. Os resul- 
tados são ponderados para se obter uma pontuação global e, então, uma classificação final designada 
por estrelas, a qual varia de zero a cinco estrelas, é atribuída a cada corretora. A execução do negócio, 
facilidade de uso e a variedade de ofertas são três das áreas avaliadas. Uma pontuação igual a 5 na exe- 
cução do negócio significa que o processo de entrada e execução do pedido fluiu facilmente de uma 
etapa para a seguinte. Um valor igual a 5 para a facilidade de uso significa que o site foi fácil de usar 
e que pode ser personalizado para exibir aquilo que o cliente quer ver. Um valor igual a 5 para a área 
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de variedade de ofertas significa que todas as transações de investimentos podem ser executadas on- 
line. Os dados a seguir apresentam as pontuações correspondentes à execução do negócio, facilidade 
de uso e variedade de ofertas, bem como uma classificação por estrelas de uma amostra de dez das cor- 
retoras on-line que a Barron's avaliou (Barron's, 10 de março de 2003). 


Corretora Execução do Negócio Facilidade de Uso Variedade de Ofertas Avaliação 
Wall St. Access 3,7 4,5 48 40 
E*TRADE (Power) 34 30 42 35 
EXTRADE (Standard) 2,5 4,0 40 3,5 
Preferred Trade 48 37 34 3,5 
my Track 40 3,5 32 3,5 
TD Waterhouse 30 3,0 46 3,5 
Brown & Co. 2,7 2,5 33 3,0 
Brokerage America 1,7 3,5 3,1 3,0 
Merrill Lynch Direct 22 2,7 3,0 2,5 
Strong Funds 14 3,6 2,5 20 


a. Determine a equação de regressão estimada que possa ser usada para prever a classificação por 
estrelas, dadas as pontuações para a execução, facilidade de uso e variedade de ofertas. 

b. Use o teste F para determinar a significância global da relação. Qual é a sua conclusão no nível de 
significância 0,05? 

c. Use o teste t para determinar a significância de cada variável independente. Qual é a sua conclusão 
ao nível de significância 0,05? 

d. Retire da equação de regressão estimada quaisquer variáveis independentes que não sejam signifi- 
cativas. Qual é a sua equação de regressão estimada recomendada? Compare R? com o valor de R? 
obtido no item (a). Discuta as diferenças. 


26. No exercício 10, foi desenvolvida uma equação de regressão estimada relacionando os jogos ganhos 
com a porcentagem de field goals feitos pela equipe, a porcentagem de lances de três pontos feitos 
pelo time adversário, e o número de turnovers cometidos pelo time adversário. 


a. Use o teste F para determinar a significância global da relação. Qual é a sua conclusão no nível de 
significância 0,05? 

b. Use o teste г para determinar a significância de cada variável independente. Qual é a sua conclusão 
no nível de significância 0,05? 


13.6 USANDO A EQUAÇÃO DE REGRESSÃO ESTIMADA 
PARA ESTIMAÇÃO E PREVISÃO 


Os procedimentos para estimar o valor médio de y e para prever um valor individual de y na regressão múl- 
tipla são similares aos da análise de regressão que envolvem uma variável independente. Primeiramente, 
lembre-se de que mostramos no Capítulo 12 que a estimação por ponto do valor esperado de y para deter- 
minado valor de x era idêntica à estimação por ponto de um valor individual de y. Em ambos os casos, usa- 
mos ў = Бо + Бух como estimação por ponto. 

Na regressão múltipla, usamos o mesmo procedimento. Ou seja, substituímos os valores dados, ху, x», 
- - - Xp па equação de regressão estimada e usamos o valor correspondente de ў como estimação por ponto. 
Suponha que no exemplo da Butler Trucking queiramos usar a equação de regressão estimada envolven- 
do x, (milhas percorridas) e x, (número de entregas) para desenvolver duas estimações por intervalo: 


1. Um intervalo de confiança do tempo médio de viagem para todos os caminhões que percorrem 100 
milhas e fazem duas entregas. 


2. Um intervalo de previsão do tempo de viagem de um caminhão específico que percorre 100 milhas 
e faz duas entregas. 


Usando a equação de regressão estimada у = —0,869 + 0,0611x, + 0,923x,, sendo x, = 100 e x, = 2, obte- 
mos o seguinte valor de $: 
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ў = — 0,869 + 0,0611(100) + 0,9232) = 7,09 


Portanto, a estimação por ponto do tempo de viagem em ambos os casos é de aproximadamente sete horas. 

Para desenvolver estimações por intervalo do valor médio de y e de um valor individual de y, usamos 
um procedimento similar ao da anátise de regressão que envolve uma variável independente. As fórmulas 
necessárias estão além do escopo deste livro, mas softwares freqüentemente fornecem intervalos de con- 
fiança tão logo os valores de х}, xp, . . ., X, são especificados pelo usuário. Na Tabela 13.4, apresentamos 
os intervalos de confiança e de previsão de 95% do exemplo da Butler Company correspondentes a valo- 
res selecionados de x, e x»; esses valores foram obtidos com o Minitab. Note que a estimação por interva- 
lo de um valor individual de y é mais ampla que a estimação por intervalo do valor esperado de y. Essa 
diferença simplesmente reflete o fato de podermos estimar o tempo médio de viagem de todos os cami- 
nhões, considerando determinados valores de x, е ху, do que podemos prever o tempo de viagem de um 
caminhão específico. 


Tabela 13.4 Os intervalos de confiança e de previsão de 95% da Butler Trucking 


Valor de Valor de Intervalo de Confiança Intervalo de Previsão 
x X, Limite Mínimo Limite Máximo Limite Mínimo Limite Máximo 
50 2 3,146 4,924 2414 5,656 
50 3 4,127 5,789 3,368 6,548 
50 4 4815 6,948 4,157 7,607 
100 2 6,258 7,926 5,500 8,683 
100 3 7,385 8,645 6,520 9,510 
100 4 8,135 9,742 7,362 10,515 
Exercícios 
Métodos 


27. No exercício 1, foi apresentada a seguinte equação de regressão estimada baseada em dez Observacóes: 


ў = 29,1270 + 0,5960 + 0,4980x, 


a. Desenvolva uma estimação por ponto do valor médio de y quando x, = 180 e x, = 310. 
b. Desenvolva uma estimação por ponto de um valor individual de y quando x, = 180 e x, = 310. 


28. Consulte os dados do exercício 2. A equação de regressão estimada desses dados é: 
ў = —18,4 + 201x; + 4,74% 


a. Desenvolva um intervalo de confiança de 95% para o valor médio de у quando x, = 45 e x, = 15. 
b. Desenvolva um intervalo de previsão de 95% para y quando x, = 45 e x, = 15. 


Aplicacóes 


29. No exercício 5, o proprietário da Showtime Movie Theaters, Inc., usou análise de regressão múltipla 
para prever a receita bruta (y) em função da propaganda de televisão (ху) e da propaganda de jornal 
(x2). A equação de regressão estimada foi: 


$ = 83,2 + 229x, + 1,30%, 


a. Qual é a receita bruta esperada de uma semana quando US$ 3.500 foram gastos em propaganda de 
televisão (x, = 3,5) e US$ 1.800 foram gastos em propaganda de jornal (x, = 1,8)? 

b. Forneça um intervalo de confiança de 95% correspondente à receita média de todas as semanas que 
apresentaram os gastos relacionados no item (a). 

c. Forneça um intervalo de confiança de 95% correspondente à receita da próxima semana, supondo 
que os gastos de propaganda serão alocados como no item (a). 
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30. No exercício 9, foi desenvolvida uma equação de regressão estimada relacionando a porcentagem de 
estudantes que freqüentam um curso superior de quatro anos com o tamanho médio da classe e a pon- 
tuacáo média no SAT. 


a. Desenvolva um intervalo de confianga de 95% correspondente à porcentagem média dos estudan- 
tes que freqüentam um curso superior de quatro anos em um distrito escolar que tem um tamanho 
médio de classe igual a 25 e cujos estudantes têm uma pontuação média no SAT igual a 1.000. 

b. Suponha que um distrito escolar da cidade de Conway, na Carolina do Sul, tenha um tamanho médio 
de classe igual a 25 e uma pontuação média no SAT igual a 950. Desenvolva um intervalo de previ- 
são de 95% da porcentagem de estudantes que fregüentam um curso superior de quatro anos. 


31. A seção Buyer's Guide (Guia do Comprador) do site da revista Car and Drive fomece avaliações e 
testes de estrada de carros, caminhóes, utilitários esportivos e vans. A média das avaliagóes da quali- 
dade geral, estilo do veículo, freios, manejo, economia de combustível, conforto interno, aceleracáo, 
confiabilidade, ajuste e acabamento, transmissão e tração de cada veículo é resumida usando-se uma 
escala que varia de 1 (o pior) a 10 (o melhor). Uma parte dos dados referentes a 14 carros esporti- 
vos/GT é apresentada a seguir (http://www.caranddriver, 7 de janeiro de 2004). 


Esportivo/GT Avaliação Geral Manejo Confiabilidade Ajuste e Acabamento 
Acura 3.2CL 7,80 7,83 8,17 7,67 
Acura RSX 9,02 9,46 9,35 8,97 
Audi TT 9,00 9,58 8,74 9,38 
BMW 3-Series/M3 8,39 9,52 8,39 8,55 
Chevrolet Corvette 8,82 9,64 8,54 7,87 
Ford Mustang 8,34 8,85 8,70 7,34 
Honda Civic Si 8,92 9,31 9,50 7,93 
infinity G35 8,70 9,34 8,96 8,07 
Mazda RX-8 8,58 9,79 8,96 8,12 
Mini Cooper 8,76 10,00 8,69 8,33 
Mitsubishi Eclipse 8,17 8,95 8,25 7,36 
Nissan 350Z 8,07 9,35 7,56 8,21 
Porsche 911 9,55 9,91 8,86 9,55 
Toyota Celica 8,77 9,29 9,04 7,97 


a. Desenvolva uma equação de regressão estimada usando a capacidade de manejo, confiabilidade e 
ajuste e acabamento para prever a qualidade geral. 

b. Outro carro esportivo/GT avaliado pela Car and Drive é o Honda Accord. As avaliações de mane- 
jo, confiabilidade e ajuste e acabamento do Honda Accord foram 8,28, 9,06 e 8,07, respectivamen- 
te. Estime a classificação geral desse carro. 

c. Forneça um intervalo de confiança de 95% da qualidade geral de todos os carros esportivos e GT 
com as características relacionadas no item (b). 

d. Forneça um intervalo de previsão de 95% da qualidade geral do Honda Accord descrito no item (b). 

e. A avaliação geral divulgada pela Car and Drive para o Honda Accord foi 8,65. Como essa avalia- 
ção se compara com as estimativas que você desenvolveu nos itens (b) e (d)? 


13.7 VARIÁVEIS QUALITATIVAS INDEPENDENTES 


Até aqui, os exemplos que consideramos envolveram variáveis quantitativas independentes, como a popu- 
lação de estudantes, a distância percorrida e o número de entregas. Em muitas situações, entretanto, deve- 
mos trabalhar com variáveis qualitativas independentes, como o sexo (masculino, feminino), método de 
pagamento (dinheiro, cartão de crédito, cheque) e assim por diante. O propósito desta seção é mostrar-lhe 
como as variáveis qualitativas são tratadas na análise de regressão, Para ilustrar o uso € a interpretação de 
uma variável qualitativa independente, consideraremos um problema enfrentado pelos gerentes da Johnson 
Filtration, Inc. 


Exemplo: Johnson Filtration, Inc. 


A Johnson Filtration, Inc. oferece serviços de manutenção para sistemas de filtração de água em todo o sul 
da Flórida. Os clientes contatam a Johnson solicitando serviços de manutenção em seus sistemas de filtra- 
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gem de água. Para estimar o tempo de atendimento e o custo do serviço, os gerentes da Johnson querem 
prever o tempo de reparo necessário para cada pedido de manutenção. Portanto, o tempo de reparo em 
horas é a variável dependente. Acredita-se que o tempo de reparo esteja relacionado a dois fatores: o núme- 
ro de meses desde o último serviço de manutenção e o tipo de problema que requer o reparo (mecánico ou 
elétrico). Os dados de uma amostra de dez chamadas de serviço estão registrados na Tabela 13.5. 

Digamos que y denote o tempo de reparo em horas e que x, designe o número de meses desde o últi- 
mo serviço de manutenção. O modelo de regressão que usa somente x, para prever y é: 


у= В+ Вх + є 


Usando o Minitab para desenvolver а equação de regressão estimada, obtivemos a saída mostrada na 
Figura 13.7. A equação de regressão estimada é: 


9 = 2,15 + 0,304x, (13,16) 


Tabela 13.5 Dados do exemplo da Johnson Filtration 


Chamada А Nümero de Meses Tempo de Reparo 
de Servico Desde o Ültimo Servico Tipo de Conserto em Horas 
| 2 Elétrico 29 
2 6 Mecánico 3,0 
3 8 Elétrico 48 
4 3 Mecánico 1,8 
5 2 Elétrico 29 
6 7 Elétrico 4,9 
7 9 Mecánico 42 
8 8 Mecánico 48 
9 4 Elétrico 44 
10 6 Elétrico 45 


No nível de significância de 0,05, o valor p igual a 0,016 para o teste г (ou F) indica que o número de meses 
desde o último serviço de manutenção está significativamente relacionado com o tempo de reparo. R-sq 
= 53,4% indica que x, isoladamente explica 53,4% da variabilidade no tempo de reparo. 

Para incorporar o tipo de reparo no modelo de regressão, definimos a seguinte variável: 


x, ) О se o tipo de reparo for mecânico 
1 se o tipo de reparo for elétrico 


Na análise de regressão, x, é chamada variável (ou indicador) simulada. Usando essa variável simulada, 
podemos escrever o modelo de regressão múltipla como: 


у= o + Вх, + Вх + є 


А Tabela 13.6 6 o conjunto de dados (data ser) revisado que inclui os valores da variável simulada. Usando 
9 Minitab e os dados da Tabela 13.6, podemos desenvolver estimativas dos parámetros do modelo. A saída 
do Minitab apresentada na Figura 13.8 mostra que a equação de regressão múltipla estimada é 


$ = 0,93 + 0388x, + 126; (13.17) 


Capítulo 13 Regressão Múltipla 


Figura 13.7 Saída do Minitab referente à Johnson Filtration, tendo como variável independente o nümero 
de meses desde o último serviço de manutenção (x) 


The regression equation is 
Time = 0.930 + 0.388 Months + 1.26 Type 


Predictor Coef SE Coef T р 
Constant 0.9305 0.4670 1.99 0.087 
Months 0.38762 0.06257 6.20 0.000 
Type 1.2627 0.3141 4.02 0.005 


5 = 0.4590  R-sq = 85.9%  R-sq(adj) = 81.9% 


Analysis of Variance i 


SOURCE DF ss MS F р ] 
` Regression 2 9.0009 4.5005 21.36 0.001 Ц 

Residual Error 7 1.4751 0.2107 

Total 9 10.4760 


Los 
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Tabela 13.6 Dados do exemplo da Johnson Filtration, sendo o tipo de reparo indicado por uma variável 


simulada (x; = O para reparos mecânicos e x, = | para reparos elétricos) 
Número de Meses Tipo de Tempo de Reparo 
Cliente Desde o Último Serviço (ху) Conserto (хз) em Horas (y) 

I 2 | 29 
2 6 0 30 
3 8 | 48 
4 3 0 1,8 
5 2 1 29 
6 7 | 49 
7 9 0 42 
8 8 0 4,8 
9 4 | 44 
10 6 | 45 


No nível de significáncia 0,05, o valor p igual а 0,001 associado ao teste F (F = 21,36) indica que a rela- 
ção de regressão é significativa. A parte do teste г da saída computadorizada da Figura 13.8 indica que 
tanto os meses desde o último serviço (valor p = 0,000) como o tipo de reparo (valor p = 0,005) são esta- 
tisticamente significativos. Além disso, R-sq = 85,9% e R-sq(adj) = 81,9% indicam que a equação de 
regressão estimada explica bem a variabilidade nos tempos de reparo. Desse modo, a Equação 13.17 se 
demonstrará útil em termos de estimar o tempo de reparo necessário para as várias chamadas de serviço 
de manutenção. 


Interpretando os Parâmetros 


A equação de regressão múltipla para o exemplo da Johnson Filtration é: 


EG) = Bo + By + Вх, (13.18) 
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Figura 13.8 Saída do Minitab referente à Johnson Filtration, tendo como variáveis independentes o nümero 
de meses desde o último serviço de manutenção (x) e o tipo de reparo (x5) 


The regression equation is 


Time = 0.930 + 0.388 Months + 1.26 Type 


Predictor Coef SE Coef T р 
Constant 0.9305 0.4670 1.99 0.087 
Months 0.38762 0.06257 6.20 0.000 
Type 1.2627 0.3141 4.02 0.005 


S = 0.4590  R-sq = 85.9%  R-sq(adj) = 81.9% 


Analysis of Variance 


SOURCE DF SS MS F P 
Regression 2 9.0009 4.5005 21.36 0.001 
Residual Error 7 1.4751 0.2107 

Total 9 10.4760 M 


Г наснага —— À 
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Para entender como interpretar os parâmetros fo, В; e f; quando uma variável qualitativa está presente, 
considere o caso em que x; = 0 (reparo mecánico). Usando E(y | mecánico) para designar a média, ou 
valor esperado, do tempo de reparo dado um reparo mecánico, temos: 


Е(у | mecánico) = fy + Вуху, + (0) = Bo + Bi (13.19) 
Similarmente, em relacáo a um reparo elétrico (x; — 1), temos: 


Е(у | elétrico) = В, + fix, + BAD = Bo + Bm + 8, 
= (bo + B) + By (13.20) 


Ao comparar as Equações 13.19 e 13.20, notamos que o tempo médio de reparo é uma função linear de x, 
tanto para os reparos mecânicos como para os elétricos. A inclinação de ambas as equações é £4, mas o 
ponto de interseção com o eixo y difere. Em relação aos reparos mecânicos, o ponto de interseção com y 
é Bona Equação 13.19 e, em relação aos reparos elétricos é, (Во + 8) na Equação 13.20. A interpretação 
de 8, é que ele indica a diferença entre o tempo médio de reparo de problemas elétricos e o tempo médio 
de reparo para problemas mecânicos. 

Se В, for positivo, o tempo médio dé reparo de um problema elétrico será maior que o de um proble- 
ma mecánico; se £ for negativo, o tempo médio de reparo de um problema elétrico será menor que o de 
um problema mecánico. Finalmente, se 8, = 0, não haverá diferença no tempo médio de reparo de pro- 
blemas elétricos e mecânicos, e o tipo de reparo não está relacionado com o tempo de reparo. 

Usando a equação de regressão múltipla estimada у = 0,93 + 0,388x, + 1,26x,, notamos que 0,93 é a 
estimativa de f e 1,26 é a estimativa de 8. Assim, quando x, = 0, (reparo mecánico), 


$ = 0,93 + 0,388x, (13.21) 


e quando x, = 1 (reparo elétrico), 


$ = 0,93 + 0,388x, + 1,26(1) 


(13.22) 
= 2,19 + 0,388x, 
De fato, o uso de uma variável simulada para o tipo de reparo produz duas equações que podem ser usa- 
das para prever o tempo de reparo, e uma delas corresponde a reparos mecânicos e a outra se refere a repa- 
ros elétricos. Além disso, com b, =1,26, sabemos que, em média, os reparos elétricos requerem 1,26 horas 
a mais que os reparos mecânicos. 
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А Figura 13.9 é a plotagem dos dados da Johnson da Tabela 13.6. О tempo de reparo em horas (у) é 
representado pelo eixo vertical, e os meses desde o último serviço de manutenção (x;) são representados 
pelo eixo horizontal. Um ponto de dados correspondente a um reparo mecánico é indicado por um M, e 
um ponto de dados que se refere a um reparo elétrico é indicado por um E. As Equagóes 13.21 e 13.22 
estão plotadas para exibir graficamente as duas equações que podem ser usadas para prever o tempo de 
reparo, sendo uma correspondente aos reparos mecânicos e uma, aos reparos elétricos. 


Variáveis Qualitativas mais Complexas 


Uma vez que a variável qualitativa do exemplo da Johnson Filtration tinha dois níveis (mecânico e elétrico), 
foi fácil definirmos uma variável simulada, com O (zero) indicando um reparo mecânico e 1, um reparo elé- 
trico. Entretanto, quando uma variável qualitativa tem mais de dois níveis, deve-se ter cautela tanto ao defi- 
nir como ao interpretar as variáveis simuladas. Conforme mostraremos, se uma variável qualitativa tiver k 
níveis, k — 1 variáveis simuladas serão necessárias, sendo cada variável simulada codificada como O ou 1. 

Por exemplo, suponha que um fabricante de máquinas copiadoras tenha organizado os territórios de 
venda de um estado em particular em três regiões: A, B e C. Os gerentes querem usar análise de regressão 
para ajudar a prever o número de copiadoras vendidas por semana. Sendo o número de unidades vendidas 
a variável dependente, eles consideram diversas variáveis independentes (o número dos integrantes da 
equipe de vendas, os gastos de propaganda e assim por diante). Suponha que os gerentes acreditem que a 
região de vendas também seja um fator importante para preverem o número de copiadoras vendidas. Desde 
que a região de vendas seja uma variável qualitativa com três níveis, A, B e C, precisaremos de 3 ~ 1 = 2 
variáveis simuladas para representar a região de vendas. 


Figura 13.9 Diagrama de dispersão dos dados de reparos da Johnson Filtration relativos à Tabela 13.6 


Tempo de Reparo (horas) 


M = reparo mecânico 
E = reparo elétrico 


ааа ааа 
0 © 2 3 14 5 6€ 7 8 9  |0 


Meses Desde o Ultimo Servico de Manutenção 


Cada variável pode ser codificada como 0 ou 1 da seguinte maneira: 


х = { 1 se а região de vendas for B 
17 "HI 
0 caso contrário 


х= 1 se a região de vendas for C 
0 caso contrário 


Com essa definição, temos os seguintes valores de x, e x;: 
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Regiáo х Xj 
А 0 0 
B | 0 
С 0 | 


As observações correspondentes à região A seriam codificadas como x, = 0, x, = 0; as observações cor- 
respondentes à região B seriam codificadas como x, = 1, x, = 0; e as observações correspondentes à 
região C seriam codificadas como x, = 0, x; = 1. 

A equação de regressão relacionando o valor esperado do número de unidades vendidas, E(y), com a 
variável simulada seria escrita como: 


EO) = Bo + Bm + Вх, 


Para nos ajudar a interpretar os parâmetros bo, b; e b», considere as três variações seguintes da equação de 
regressão: 


Ely | região A) = 8, + 8,0) + 8,0) = Bo 
Ely | região В) = 8, + 8,01) + 8,0) = f, + fi 
E(y | região. С) = B, + 8,0) + Bi) = Bo + В, 


Desse modo, Во é а média, ou valor esperado, das vendas para a região A; В; é a diferença entre o núme- 
ro médio de unidades vendidas na região В e o número médio de unidades vendidas na região A; e В, ёа 
diferença entre o número médio de unidades vendidas na região C e o número médio de unidades vendi- 
das na regiáo A. 

Foram necessárias duas variáveis simuladas porque a região de vendas é uma variável qualitativa com 
três níveis. Mas a designação de x, = 0, x, = O para indicar a região A, x, = 1, x; = 0 para indicar a região 
Bex, = 0, x, = 1 para indicar a região C foi arbitrária. Por exemplo, poderíamos ter optado por x, = 1, 
X, = 0 para indicar a região A, x, = 0, x, = O para indicar a região B e x, = 0, x, = 1 para indicar a região 
С. Nesse caso, В; teria sido interpretado como a diferença média entre as regiões A e B e 8, como a dife- 
renca média entre as regiões C e B. i 

O ponto importante а ser lembrado é que, quando uma variável qualitativa tem К níveis, k — 1 variáveis 
simuladas são necessárias na análise de regressão múltipla. Dessa forma, se o exemplo das regiões de 
venda tivesse uma quarta região, intitulada D, três variáveis simuladas seriam necessárias. Por exemplo, 
as três variáveis simuladas podem ser codificadas da seguinte maneira: 


1 se a região de vendas for B 1 se a região de vendas for C 
х= Ll х = Li 
1^ [Ocaso contrário 2 [0 caso contrário 


lsearegiáo de vendas for D 
х= PR 
3 0 caso contrário 


Exercícios 


Métodos 


32. Considere um estudo de regressáo envolvendo uma variável dependente y, uma variável quantitativa 
independente x, e uma variáve! qualitativa com dois níveis (nível 1 e nível 2). 


a. Escreva uma equação de regressão múltipla relacionando x, e a variável qualitativa com y. 
b. Qual é o valor esperado do y correspondente ao nível 1 da variável qualitativa? 
c. Qual é o valor esperado do y correspondente ao nível 2 da variável qualitativa? 
d. Interprete os parâmetros de sua equação de regressão. 
33, Considere um estudo de regressão envolvendo uma variável dependente y, uma variável quantitativa 
independente x, e uma variável qualitativa com três níveis possíveis (nível 1, nível 2 e nível 3). 
a. Quantas variáveis simuladas são necessárias para representar a variável qualitativa? 
b. Escreva uma equação de regressão múltipla relacionando x, e a variável qualitativa a y. 
c. Interprete os parâmetros de sua equação de regressão. 
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Aplicações 


34. 


A administração propôs o seguinte modelo de regressão para prever as vendas em uma loja de fast- 
food. 


y = Bo + Bm + Box, + Baxa + є AUTOTESTE 
em que 
ху = о número de concorrentes dentro de uma milha 
x, = a população dentro de uma milha (em milhares de pessoas) 


_ [1 se houver guiché de vendas drive-thru 
i to caso contrário 
y = vendas (em milhares de dólares) 
A seguinte equação de regressão estimada foi desenvolvida depois que 20 lojas foram pesquisadas: 


$ = 10,1 + 42x, + 6,8% + 15,35 


а. Qual é o valor de vendas esperado que se pode atribuir ao guiché de vendas drive-thru? 

b. Preveja as vendas de uma loja com dois concorrentes, uma populacáo de 8 mil habitantes dentro 

. de uma milha e nenhum guiché de vendas drive-thru. 

c. Preveja as vendas de uma loja com um concorrente, uma população de 3 mil habitantes dentro de 
uma milha e um guiché de vendas drive-thru. 


35. Consulte o problema da Johnson Filtration apresentado nesta seção. Suponha que, além da informa- 
ção sobre o número de meses desde que a máquina sofreu manutenção e se a falha ocorrida foi mecá- 
nica ou elétrica, os gerentes obtiveram uma lista indicando qual técnico executou o serviço. Os dados 
revisados sáo os seguintes: 
Tempo de Reparo Meses Desde o Último 
em Horas Serviço de Manutenção Tipo de Reparo Técnico 
29 2 Elétrico Dave Newton 
30 6 Mecânico Dave Newton ARQUIVO 
4,8 8 Elétrico Bob Jones DA INTERNET 
48 3 Mecánico Dave Newton 
29 2 Elétrico Dave Newton Repair 
49 7 Elétrico Bob Jones 
42 9 Mecânico Bob Jones 
4,8 8 Mecânico А Вор Јопеѕ 
4,4 4 Elétrico Bob Jones 
4,5 6 Elétrico Dave Newton 
a, Ignore, por ora, o número de meses desde que ocorreu o último serviço de manutenção (ху) e o téc- 
nico que executou o serviço, Desenvolva uma equação de regressão: linear simples estimada para 
prever o tempo de reparo (y), dado o tipo de reparo (x). Lembre-se de que x, = 0 se o tipo de repa- 
ro for mecânico e igual a 1 se o tipo de reparo for elétrico, 
b. A equação que você desenvolveu no item (a) proporciona um bom ajuste para os dados observa- 
dos? Explique. 
c. Ignore, por ora, o número de meses desde que ocorreu o último serviço de manutenção e o tipo de 
reparo associado à máquina. Desenvolva a equação de regressão linear simples estimada para pre- 
ver o tempo de reparo, dado o técnico que executou o serviço. Admitamos que x; = 0 se Bob Jones 
tiver executado o serviço e x; = 1 se Dave Newton tiver executado o serviço. 
d. A equação que você desenvolveu no item (c) proporciona um bom ajuste para os dados observa- 
dos? Explique. 
36. Esse problema é uma extensão da situação descrita no exercício 35. 


a. Desenvolva a equação de regressão estimada para prever o tempo de reparo, dado o número de 
meses desde que ocorreu o último serviço de manutenção, o tipo de reparo e o técnico que execu- 
tou o serviço. ARQUIVO 

b. No nível de significância de 0,05, teste se a equação de regressão estimada desenvolvida no item ОА INTERNET 
(a) representa uma relação significativa entre as variáveis independentes e a variável dependente. Repair 
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c. A adição da variável independente хз, o técnico que executou o serviço, é estatisticamente signifi- 
cativa? Use а = 0,05. Qual explicação você pode apresentar para os resultados observados? 


37. A National Football League avalia os candidatos a jogador de acordo com a posição, em uma escala 
que varia de 5 a 9. As avaliações são interpretadas da seguinte maneira: 8 a 9 devem começar no pri- 
meiro ano; 7,0 a 7,9 estão aptos a começar; 6,0 a 6,9 comporão a equipe como reservas; e 5,0 a 5,9 
podem fazer parte do clube e contribuir. A tabela a seguir apresenta a posição, peso, velocidade (para 
36,57 m) e as classificações de 25 candidatos à NFL (USA Today, 14 de abril, 2000). 

Nome Posição Peso (kg) Velocidade (segundos) Classificação 
Cosey Coleman Guard 46,05 5,38 7,4 
Travis Claridge Guard 37,43 5,18 70 
Kaulana Noa Guard 43,78 5,34 6,8 
Leander Jordan Guard 49,68 5,46 6,7 
Chad Clifton Guard 51,49 5,181 6,3 
Manuia Savea Guard 39,70 5,32 6.1 
Ryan Johanningmeir Guard 40,61 528 6,0 
Mark Tauscher Guard 4424 5,37 60 
Blaine Saipaia Guard 45,60 5,25 6,0 
Richard Mercier Guard 33,80 5,34 5,8 
Damion Mcintosh Guard 48,77 5,31 53 
Jeno James Guard 45,14 5,64 5,0 
Al Jackson Guard 37,89 5,20 5,0 
Chris Samuels Offensive tackle 47,41 4,95 8,5 
Stockar McDouglas Offensive tackle 63,74 ^ 5,50 8,0 
Chris Mclngosh Offensive tackle 42,88 5,39 78 
Adrian Klemm Offensive tackle 39,25 4,98 76 
Todd Wade Offensive tackle 47,87 520 73 
Marvel Smith Offensive tackle 45.15 5,36 7, 
Michael Thompson Offensive tackle 30,18 5,05 6,8 
Bobby Williams Offensive tackle 50,59 5,26 6,8 
Darnell Alford Offensive tackle 51,50 5,55 6,4 
Terrance Beadles Offensive tackle 41,52 5,15 6,3 
Tutan Reyes Offensive tackle 35,64 5,35 6,1 
Greg Robinson-Ran Offensive tackle . 51,05 5,59 6,0 

a. Desenvolva uma variável simulada que leve em conta a posição do jogador. 

b. Elabore uma equação de regressão estimada para mostrar como a classificação está relacionada 
com a posição, peso e velocidade. 

c. No nível de significância de 0,05, teste se a equação de regressão estimada desenvolvida no item 
(b) indica uma relação significativa entre as variáveis independentes e a variável dependente. 

d. À equação de regressão estimada proporciona um bom ajuste para os dados observados? Explique. 

€. A posição é um fator significativo na classificação do jogador? Use а = 0,05. Explique. 

f. Suponha que um novo candidato à posição de offensive tackle que pesa 136 kg corra os 36,57 
metros (40 jardas) em 5,1 segundos, Use a equação de regressão estimada desenvolvida no item (b) 
para estimar a classificação desse jogador. 

38. Um estudo de anos levado a efeito pela American Heart Association forneceu dados sobre a maneira 


pela qual a idade, pressão arterial e o tabagismo se relacionam com o risco de acidentes vasculares cere- 
brais. Suponha que os dados a seguir sejam de uma parte desse estudo. O risco é interpretado como a 
probabilidade (vezes 100) de o paciente sofrer um derrame cerebral nos próximos dez anos. Em relação 
à variável tabagismo, defina uma variável simulada com 1 indicando fumante e 0, não-fumante. 


Risco Idade Pressão Arterial Fumante 
12 57 152 Мао 
24 67 163 Мао 
13 58 155 Мао 
56 86 177 Sim 
28 59 196 Não 
51 76 189 Sim 
18 56 155 Sim 


3l 78 120 Мао 
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Risco Idade Pressão Arterial Fumante 
37 80 135 Sim 
15 78 98 Мао 
22 71 152 Мао 
36 70 173 Sim 
15 67 135 Sim 
48 77 209 Sim 
15 60 199 Мао 
36 82 119 Sim 

8 66 166 Não 
34 80 125 : Sim 
3 62 117 Não 
37 59 207 Sim 


a. Desenvolva uma equação de regressão estimada que relacione o risco de derrame cerebral com a 
idade e pressão arterial da pessoa, e se ela é fumante. 

b. O tabagismo é um fator significativo no risco de um derrame cerebral? Explique. Use а = 0,05. 

c. Qual é a probabilidade de Art Speen sofrer um derrame cerebral nos próximos dez anos, sendo ele 
um senhor de 68 anos, fumante, cuja pressão arterial é 175 mmHg? Quais medidas o médico pode- 
ria recomendar para esse paciente? 


Resumo 


Neste capítulo, introduzimos a análise de regressão múltipla como uma extensão da análise de regressão 
linear simples apresentada no Capítulo 12. A análise de regressão múltipla nos possibilita entender como 
uma variável dependente se relaciona com duas ou mais variáveis independentes. A equação de regressão 
múltipla E(y) = Bo + бух + 82X2 +... Вх, indica que o valor esperado, ou valor médio, da variável depen- 
dente y está relacionado com os valores das variáveis independentes ху, x», . . ., Xp, Dados amostrais e o 
método dos mínimos quadrados são usados para desenvolver a equação de regressão múltipla estimada 5 
= by + Вуху + Бух +... + bx, Com efeito, bo, by, by, . . ., b, São estatísticas amostrais usadas para esti- 
mar os parâmetros desconhecidos do modelo, fj, 81, f», . . ., Ё. Saídas computadorizadas foram utiliza- 
das ao longo de todo o capítulo para enfatizar o fato de que os softwares estatísticos sáo o ünico meio rea- 
lístico de realizar os numerosos cálculos necessários na análise de regressão múltipla. 

O coeficiente de determinação múltiplo foi apresentado como uma medida da eficiência de ajuste da 
equação de regressão estimada. Ele determina a proporção da variação de y que pode ser explicada pela equa- 
ção de regressão estimada. O coeficiente de determinação múltiplo ajustado é uma medida similar da eficiên- 
cia de ajuste que adequa o número de variáveis independentes e, dessa forma, evita superestimar o impacto 
de acrescentar mais variáveis independentes. 

Um teste F e um teste t foram apresentados como maneiras de determinar estatisticamente se a relação en- 
tre as variáveis é significativa. O teste F é usado para estabelecer se há uma relação significativa global entre 
a variável dependente e o conjunto de todas as variáveis independentes. O teste t é usado para determinar se 
há uma relação significativa entre a variável dependente e uma variável independente individual, dadas as 
outras variáveis independentes do modelo de regressão. A correlação entre as variáveis independentes, conhe- 
cidas como multicolinearidade, também foi discutida. 

O capítulo encerrou-se com uma seção sobre como se pode usar variáveis simuladas para incorporar 
variáveis qualitativas independentes na análise de regressão múltipla. 


Glossário 


Análise de regressão múltipla Análise de regressão que envolve duas ou mais variáveis independentes. 
Modelo de regressão múltipla A equação matemática que descreve como a variável dependente y se rela- 
ciona com as variáveis independentes ху, х›,..., хр € um termo de erro e. 


5 NT: mmHG - Milímetros de mercürio (medida indicada nos aparelhos de medir a pressão arterial). 
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Equação de regressão múltipla A equação matemática que descreve como a média, ou valor esperado, 
da variável dependente y se relaciona com os valores das variáveis independentes; ou seja, E(y) = fl; 
+ Вр + бю +... + Вх. 

Equação de regressão múltipla estimada A estimativa da equação de regressão múltipla baseada em 
dados amostrais e no método dos mínimos quadrados: = ba + by + by +... + 6р. 

Método dos mínimos quadrados О método usado para desenvolver a equação de regressão estimada. Ele 
minimiza o somatório dos resíduos quadráticos (os desvios entre os valores observados da variável 
dependente, y;, е os valores estimados da variável dependente, 39. 

Coeficiente de determinação múltiplo Uma medida da eficiência de ajuste da equação de regressão múl- 
tipla estimada. Ele pode ser interpretado como a proporção da variabilidade na variável dependente que 
é explicada pela equação de regressão estimada. 

Coeficiente de determinação múltiplo ajustado Uma medida da eficiência de ajuste da equação de 
regressão múltipla estimada que ajusta o número de variáveis independentes no modelo e, desse modo, 
evita superestimar o impacto de se acrescentar mais variáveis independentes. 

Multicolinearidade O termo usado para descrever a correlação entre as variáveis independentes. 

Variável qualitativa independente Uma variável independente com dados qualitativos. 

Variável simulada (Dummy variable) Uma variável usada para modelar o efeito de variáveis qualitativas 
independentes. Uma variável simulada pode assumir somente os valores zero ou um. 


Fórmulas-Chave 
Modelo de Regressão Múltipla 


у= В + Вх, + Вх, tec В,х, + є (13.1) 
Equação de Regressão Múltipla 
` E(y) = Bo + Врх + бух, ++ В,х, (13.2) 
Equação de Regressão Múltipla Estimada 
f = by + bx tbe bx, (13.3) 
Critério dos Mínimos Quadrados 
| min (у, — $* (13.4) 
Relacáo Entre SST, SSR e SSE 
SST = SSR + SSE (13.7) 
Coeficiente de Determinação Múltiplo 
SSR 
[pe 13. 
SST (13.8) 
Coeficiente de Determinação Múltiplo Ajustado 
-1 
R} =1- (1 - R) (13.9) 
n-p-l 
Regressáo Média Quadrática 
SR 
MSR = SR (13.12) 
Erro Médio Quadrático 
SSE 
MSE = — SE __ (13.13) 
n—p-1 
Estatística de Teste F 
MSR 
F= MSR (13,14) 
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Estatística de Teste ғ 


p= 2 (13.15) 


Exercícios Suplementares 


39. O responsável pelas matrículas escolares (admissions officer) do Clearwater College desenvolveu a 


40. 


41, 


seguinte equação de regressão estimada relacionando o GPA acadêmico final do estudante com a pon- 
tuação SAT em matemática e o GPA obtido no curso colegial, 


$ = 141 + 0235xj + 0,00486x, 


em que 
Xj = grade point average — GPA obtido no colégio 
x, = pontuação SAT em matemática 
у = grade point average — GPA académico final 


a. Interprete os coeficientes dessa equação de regressão estimada. 


b. Estime o GPA académico final de um estudante que tem a média 84 no curso colegial e uma pon- 
tuação 540 no exame SAT de matemática. 


O diretor de pessoal da Electronics Associates desenvolveu a seguinte equação de regressão estima- 
da relacionando a pontuação que o empregado obteve em um teste de satisfação no trabalho com seu 
tempo de serviço e seu nível de remuneração 


$ = 144 + 8,69x, + 13,5%, 


em que 
Xj = tempo de serviço (em anos) 
x, = nível de remuneração (em dólares) 
y = pontuação no teste de satisfação no trabalho (pontuações mais altas indi- 
cam melhor satisfação no trabalho) 


a. Interprete os coeficientes dessa equação de regressão estimada. 
b. Desenvolva uma estimativa da pontuação no teste de satisfação no trabalho para um empregado que 
tenha quatro anos de serviço e ganhe US$ 6,50 por hora. 


Apresentamos a seguir o resultado computadorizado parcial de uma análise de regressão: 


E e. "n T m o omo м m a ^oc vm „з= + 


The regression equation is 
Y = 8.103 + 7.602 X1 + 3.111 X2 ' 


Predictor Coef SE Coef T 
Constant 2.667 
xi 2.105 | 
х2 0.613 ' 
5 = 3.335 R-sq = 92.3% R-sq(adj) = % 1 
Analysis of Variance ‚ 
Ц 
SOURCE DF 55 М5 Е А 
Regression 1612 ' 
Residual Error 12 А 
Total i 


. ЧММ e ama. а] 


а. Calcule as razões £ apropriadas. 

b. Teste a significância de 8, e 8,. sendo а = 0,05. 
c. Calcule as entradas nas colunas DF, SS e MS. 

d. Calcule R$. 
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42. 


43. 


Lembre-se de que no exercício 39, o responsável pelas matrículas escolares do Clearwater College 
desenvolveu a seguinte equação de regressão estimada relacionando o GPA académico final do estu- 
dante com a pontuação SAT em matemática e o GPA obtido no curso colegial: 


$ = 141 + 0,0235x + 0,00486x, 


em que 
xi = grade point average — ОРА obtido no curso colegial 
Xx, = pontuação SAT em matemática 
y = grade point average — GPA académico final 

Uma parte da saída computadorizada do Minitab é apresentada a seguir: 


amem —— ——— 


Tur ma ta nta at 


The regression equation is 
Y = -1.41 + .0235 X1 + .00486 X2 | 


} 
Predictor Coef SE Coef 
Constant -1.4053 0.4848 
i х1 0.023467 0.008666 
H х2 0.001077 
і 
H 
1 
| 
| 
i 


Hd 


| 


S = 0.1298 R-sq = R-Sq(adj) = 
Analysis of Variance | 
SOURCE DF ss MS F 
Regression 1.76209 


Residual Error . 
Total 9 1.88000 H 


—————————R 


| 
EE 


a. Preencha os langamentos que faltam nessa saída de dados. 

b. Calcule F e faça um teste ao nível de significância 0,05 para ver se uma relação significativa está 
presente. 

с. А equação de regressão estimada proporcionou um bom ajuste para os dados? Explique. 

d. Use o teste t e a = 0,05 para testar Hg: Ву = 0 e Ho: B, = 0. 


Lembre-se de que no exercício 40, o diretor de pessoal da Electronics Associates desenvolveu a 
seguinte equação de regressão estimada relacionando a pontuação que o empregado obteve em um 
teste de satisfação no trabalho com seu tempo de serviço e seu nível de remuneração 


$ = 14,4 + 8,69x + 13,5x, 


em que 
ху = tempo de serviço (em anos) 
x, = nível de remuneração (em dólares) 
y = pontuação no teste de satisfação no trabalho (pontuações mais altas indi- 
cam melhor satisfação no trabalho) 


Uma parte da saída computadorizada do Minitab é apresentada a seguir: 


mM m m eis mns чы e m sm nent meten] 
| The regression equation is » 
h Y = 14.4 — 8.69 X1 + 13.52 X2 
H Predictor Coef. SE Coef T i 
i Constant 14.448 - 8.191 1.76 i 
: xi 1.555 1 
| х2 13.517 . 2.085 | 
i 5 = 3.773 R-sq = $ R-sq(adj) = $ і 
Analysis of Variance А | 
| SOURCE DF 55 ` MS F i 
1 Regression 2 


Residual Error  : 71.17 14 і 
Total 107 720.0 i 


n ————————— 
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a. Preencha os lançamentos que faltam nessa saída de dados. 

b. Calcule F e faça um teste usando a = 0,05 para ver se uma relação significativa está presente. 
c. À equação de regressão estimada proporcionou um bom ajuste para os dados? Explique. 

d. Use o teste t e a = 0,05 para testar Но: 8, = 0 e Hy: 8, = 0. 


44. A revista SmartMoney avaliou 65 regiões metropolitanas para determinar onde os preços das casas 
eram miais altos. Uma cidade ideal obteria uma pontuação 100 se todos os fatores medidos fossem os 
mais favoráveis possíveis. Regiões com pontuações a partir de 60 são consideradas de primeira linha 
em termos de valorização de preço, e as regiões com uma pontuação abaixo de 50 podem sofrer dete- 
rioração de preços das moradias. Dois dos fatores avaliados foram a resistência da região à recessão 
econômica e sua acessibilidade e preços. Ambos os fatores foram classificados usando-se uma esca- 
la que varia de O (pontuação baixa) a 10 (pontuação alta). Os dados obtidos de uma amostra de 20 
cidades avaliadas pela SmartMoney são apresentados a seguir (SmartMoney, fevereiro de 2002). 

Resistência Acessibilidade 
Região Metropolitana à Recessão de Preços Pontuação 
Tucson 10 7 70,7 
Fort Worth 10 7 68,5 
San Antonio 6 8 65,5 
Richmond 8 6 63,6 
Indianápolis 4 8 62,5 
Filadélfia 0 10 61,9 
Atlanta 2 6 60,7 
Phoenix 4 5 60,3 
Cincinnati 2 7 570 
Miami 6 5 56,5 
Hartford 0 7 562 
Birmingham 0 8 55,7 
San Diego 8 2 54,6 
Raleigh 2 7 50,9 
Oklahoma City i 6 49,6 
Orange County 4 p 49,1 
Denver 4 4 48,6 
Los Angeles 0 7 45,7 
Detroit 0 5 44,3 
Nova Orleans 0 5 41,2 

a. Desenvolva uma equação de regressão estimada que possa ser usada para prever a pontuação, dada 
a classificacáo de resisténcia à recessáo. No nível de significáncia 0,05, teste se há uma relacáo sig- 
nificativa. 

b. A equação de regressão estimada desenvolvida no item (a) proporcionou um bom ajuste para os 
dados? Explique. 

c. Desenvolva uma equação de regressão estimada que possa ser usada para prever a pontuação, dada 
a classificação de resistência à recessão e a classificação de acessibilidade de preços. No nível de 
significância 0,05, teste a significância global. 

45. O mercado atual oferece ampla variedade de escolha para os compradores de veículos utilitários 


esportivos e picapes. Um fator importante para muitos compradores é o preço de revenda do veículo. 
A tabela a seguir apresenta o preço de revenda (%) depois de dois anos e o preço de varejo sugerido 
de dez utilitários esportivos, dez picapes pequenas e dez caminhonetes grandes (Kipliger's New Cars 
& Trucks 2000 Buyer's Guide). 


Preco de Varejo Valor de 
Marca e Modelo Tipo de Veículo Sugerido(US$) Revenda (96) 
Chevrolet Blazer LS Utilitário esportivo 19.495 55 
Ford Explorer Sport Utilitário esportivo 20.495 57 
GMC Yukon XL 1500 Utilitário esportivo 26.789 67 
Honda CR-V Utilitário esportivo 18.965 65 
Isuzu VehiCross Utilitário esportivo 30.186 62 
Jeep Cherokee Limited Utilitário esportivo 25.745 57 


Mercury Mountaineer Monterrey Utilitário esportivo 29.895 59 
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Preco de Varejo Valor de 
Marca e Modelo Tipo de Veículo Sugerido(US$) Revenda (9%) 
Nissan Pathfinder XE Utilitário esportivo 26.919 54 
Toyota 4Runner Utilitário esportivo 22418 55 
Toyota RAV4 Utilitário esportivo 7.148 55 
Chevrolet 5-10 Extended Cab Picape pequena 8.847 ` 46 
Dodge Dakota Club Cab Sport Picape pequena 6.870 53 
Ford Ranger XLT Regular Cab Picape pequena 8.510 48 
Ford Ranger XLT Supercab Picape pequena 20.225 55 
GMC Sonoma Regular Cab Picape pequena 6.938 44 
Isuzu Hombre Spacecab Picape pequena 8.820 4l 
Mazda B4000 SE Cab Plus Picape pequena 23.050 5t 
Nissan Frontier XE Regular Cab Picape pequena 2110 5i 
Toyota Tacoma Xtracab Picape pequena 8.228 49 
Toyota Tacoma Xtracab V6 Picape pequena 9.318 50 
Chevrolet K2500 Picape grande 24417 60 
Chevrolet Silverado 2500 Ext Picape grande 24.140 64 
Dodge Ram 1500 Picape grande 7.460 54 
Dodge Ram Quad Cab 2500 Picape grande 32.770 63 
Dodge Ram Regular Cab 2500 Picape grande 23.140 59 
Ford F150 XL Picape grande 22.875 58 
Ford F350 Super Duty Crew Cab XL Picape grande 34.295 64 
GMC New Sierra 1500 Ext Cab Picape grande 27.089 68 
Toyota Tundra Access Cab Limited Picape grande 25.605 53 
Toyota Tundra Regular Cab Picape grande 15.835 58 


46. 


a. Desenvolva uma equação de regressão estimada que possa ser usada para prever o valor de revenda, 
dado o preço de varejo sugerido. No nível de significância 0,05, teste se há uma relação significativa. 

b. A equação de regressão estimada desenvolvida no item (a) proporcionou um bom ajuste para os 
dados? Explique. 

c. Desenvolva uma equação de regressão estimada que possa ser usada para prever o valor de reven- 
da, dado o preço de varejo sugerido e o tipo de veículo. 

d. Use o teste F para determinar a significância dos resultados da regressão. No nível de significân- 
cia de 0,05, qual é a sua conclusão? 


O Fuel Economy Guide do U.S. Department of Energy publica dados sobre a eficiência de combustível 
para carros e caminhões. Parte dos dados de 35 picapes-padrão produzidas pela Chevrolet e General 
Motors é apresentada a seguir (http://www.fueleconomy.gov, 21 de março de 2003). A coluna intitula- 
da Tração indica se o veículo tem tração em duas rodas (T2R) ou se tem tração nas quatro rodas (T4R). 
A coluna intitulada Cilindradas apresenta a capacidade em litros das cilindradas do motor, a coluna 
Cilindros especifica o número de cilindros que o motor tem, e a coluna intitulada Transmissão indica se 
o caminhão tem transmissão automática ou manual. A coluna intitulada MPG Cidade indica a avaliação 
da eficiência de combustível em termos de milhas por galáo (mpg) quando o veículo roda na cidade. 


MPG 
Caminhão Nome Tração Cilindradas Cilindros Transmissão Cidade 
| С1500 Silverado т?к 43 6 Ашогпайса 5 
2 С1500 Silverado T2R 43 6 Manual 5 
3 C1500 Silverado T2R 48 8 Automática 5 
4 C1500 Silverado T2R 48 8 Manual t6 
5 C1500 Silverado T2R 53 8 Automática | 
32 К1500 Sierra T4R 53 8 Automática 5 
33 КІ500 Sierra T4R 53 8 Automática 5 
34 Sonoma T4R 43 6 Automática 7 
35 Sonoma T4R 43 6 Manual 5 


$ NT: Galão — Medida de capacidade que equivale a aproximadamente 3,78 litros (Estados Unidos). 
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a. Desenvolva a equação de regressão estimada que possa ser usada para prever a eficiência de com- 
bustível quando o veículo roda na cidade, dado o número de cilindradas. Teste a significância usan- 
do a = 0,05. 

b. Considere o acréscimo de uma variável simulada Tração4, em que o valor de Tração4 é O se o cami- 
nhão tiver tração em duas rodas e 1 se o caminhão tiver tração nas quatro rodas. Desenvolva a equa- 
ção de regressão estimada que possa ser usada para prever a eficiência de combustível quando se 
dirige na cidade, dado o número de cilindradas do motor e a variável simulada Tração4. 

c. Use a = 0,05 para determinar se a variável simulada acrescentada no item (b) é significativa. 

d. Considere o acréscimo da variável simulada OitoCil, em que o valor de OitoCil é O se o motor do 
caminhão tiver seis cilindros e 1 se o motor do caminhão tiver oito cilindros. Desenvolva a equa- 
ção de regressão estimada que possa ser usada para prever a eficiência de combustível quando se 
dirige na cidade, dado o número de cilindradas e as variáveis simuladas Tração4 e OitoCil. 

e. Em relação à equação de regressão estimada desenvolvida no item (d), teste a significância global 
e a significância individual usando a = 0,05. 


Estudo de Caso | - Consumer Research, Inc. 


A Consumer Research, Inc. é uma entidade independente que realiza pesquisas sobre as atitudes e compor- 
tamentos dos consumidores para uma série de empresas. Em um estudo, um cliente solicitou a investigação 
das características de consumo que possam ser usadas para prever o valor cobrado de usuários de cartóes 
de crédito. Foram coletados dados sobre a renda anual, tamanho da família e gastos anuais com cartões de 
crédito de uma amostra de 50 consumidores. Os dados a seguir encontram-se no site, no conjunto de dados 
(data set) intitulado Consumer. 


Renda Valor Renda Valor 
(em milhares Tamanho Cobrado (ет milhares Tamanho Cobrado 

de dólares) da Família (US$) de dólares) da Família (US$) 
54 3 4016 54 6 5.573 
30 2 3.159 30 | 2.583 
32 4 5.100 48 2 3.866 
50 5 4.742 34 5 3.586 
3! 2 1.864 67 4 5.037 
55 2 4.070 50 2 3.605 
37 | 2.731 67 5 5.345 
40 2 3.348 55 6 5.370 
66 4 4.764 52 2 3.890 
5] 3 4110 62 3 4.705 
25 3 4.208 64 2 4.157 
48 4 4219 22 3 3.579 
27 | 2.477 29 4 3.890 
33 2 2.514 39 2 2.972 
65 3 4214 35 | 3.121 
63 4 4.965 39 4 4.183 
42 6 4412 54 3 3.730 
2l 2 2.448 23 6 4.127 
44 l 2.995 27 2 2.92) 
37 5 4.171 26 7 4.603 
62 6 5.678 6l 2 4.273 
2] 3 3.623 30 2 3.067 
55 7 5.301 22 4 3.074 
42 2 3.020 46 5 4.820 
4l 7 4.828 66 4 5.149 
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Relatório Administrativo 


1. Use métodos de estatística descritiva para resumir os dados. Comente os resultados. 


2. Desenvolva equações de regressão estimadas, primeiramente usando a renda anual como variável inde- 
pendente e depois utilizando o tamanho da família como variável independente. Qual variável prevê 
melhor os encargos anuais de cartões de crédito? Discuta suas conclusões. 


3. Desenvolva uma equação de regressão estimada tendo a renda anual e o tamanho da família como 
variáveis independentes. Discuta suas conclusões. 


4. Qual é o encargo anual com cartão e crédito previsto para uma família de três pessoas que tem uma 
renda anual de US$ 40 mil? 


5. Discuta a necessidade de outras variáveis independentes que poderiam ser acrescentadas ao mode- 
lo. Quais variáveis adicionais poderiam ser úteis? 


Estudo de Caso 2 - Previsão das Pontuações no Exame de Proficiência Escolar 


Para prever como um distrito escolar se classificaria quando fosse levada em conta a pobreza e outras 
medições de renda, o Cincinnati Enquirer coletou dados do Education Management Services, do Ohio 
Department of Education e do Ohio Department of Taxation (The Cincinnati Enquirer, 30 de novembro 
de 1997). Primeiramente, o jornal obteve dados sobre o índice de aprovação em matemática, leitura, cién- 
cias, redação e nos exames de conhecimento de cidadania ministrados a alunos da quarta, sexta, nona e 
122 séries” no início de 1996. Combinando esses dados, eles calcularam uma porcentagem global dos estu- 
dantes de cada distrito que foram aprovados nos exames. 

A porcentagem de estudantes de um distrito escolar que participam do programa Aid for Dependent 
Children (Auxílio para Crianças Carentes — ADC), a porcentagem dos que têm direito a merendas gratuitas 
ou a preços reduzidos, e a mediana da renda familiar no distrito escolar também foram registradas. Parte 
dos dados coletados relativos aos 608 distritos escolares é apresentada a seguir. O conjunto de dados com- 
pleto está disponível no site www.thomsonlearning.com.br/estatapl.htm, no arquivo intitulado Enquirer. 


Mediana 

% dos % no % Merenda da Renda 
Classificação Distrito Escolar Município Aprovados ADC Gratuita (US$) 
| Ottawa Hills Local Lucas 93,85 0,11 0,00 48.231 
2 Wyoming City Hamilton 93,08 2,95 4,59 42.672 
3 Oakwood City Montgomery 92,92 0,20 0,38 42.403 
4 Madeira City Hamilton 92,37 1,50 4,83 32.889 
5 Indian Hill Ex Vil Hamilton 9177 1.23 2,70 44.135 
6 Solon City Cuyahoga 90,77 0,68 2,24 34.993 
7 Chagrin Falls Ex Vili Cuyahoga 89,89 0,47 0,44 38.921 
8 Mariemont City Hamilton 89,80 3,00 2,97 31.823 
9 Upper Arlington City Franklin 89,77 0,24 0,92 38.358 

10 


Granville Ex Vill Licking 8922 1,14 0,00 36.235 


Os dados foram classificados com base nos valores da coluna intitulada Porcentagem dos Aprovados; 
esses dados são a porcentagem global dos estudantes que foram aprovados nos exames. Os dados na colu- 
na intitulada Porcentagem no ADC são a porcentagem dos estudantes de cada distrito escolar que fazem 
parte do programa ADC, e os dados na coluna intitulada Porcentagem Merenda Gratuita são a porcenta- 
gem de estudantes que se habilitam a receber merendas gratuitas ou a preços reduzidos. A coluna intitula- 
da Mediana da Renda indica a mediana da renda familiar de cada distrito escolar. Em relação a cada dis- 
trito escolar, também é indicado em qual município ele se encontra. Observe que em alguns casos o valor 


7 NT: Nos Estados Unidos, há a elementary school, os seis primeiros anos de estudo, em que o aluno aprende as matérias básicas. 
Depois, ele passa à junior high-school, escola intermediária, que geralmente inclui a 78, 88 e 98 séries. Finalmente, o aluno cursa a 
senior high-school, que oferece os últimos anos da educação secundária; geralmente, a 102, 112 122 séries. 
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inserido na coluna Porcentagem Merenda Gratuita é 0, indicando que o distrito náo participava do progra- 
ma de merenda gratuita. 


Relatório Administrativo 


Use os métodos apresentados neste capítulo e nos anteriores para analisar esse conjunto de dados. 
Apresente um resumo de sua análise, incluindo os resultados estatísticos, conclusões e recomendações 
fundamentais no formato de relatório administrativo. Inclua quaisquer materiais técnicos que julgar neces- 
sários em um apêndice. 


Estudo de Caso 3 - Doações de Ex-Alunos 


As doações de ex-alunos são uma fonte importante de receitas para colégios e universidades. Se os admi- 
nistradores pudessem determinar os fatores que influem no aumento da porcentagem de ex-alunos que 
fazem doações, talvez pudessem implementar políticas que levassem a um aumento das receitas. Pesquisas 
mostram que os estudantes que estão mais satisfeitos em seus contatos com os professores têm mais pro- 
babilidade de graduar-se. Em conseqüéncia, poder-se-ia imaginar que classes menores e uma razão menor 
entre professores e alunos poderiam acarretar maior porcentagem de graduados satisfeitos, o que, por sua 
vez, poderia levar a um aumento na porcentagem de ex-alunos que fazem doações. A Tabela 13.7 apresen- 
ta dados de 48 universidades federais (America's Best Colleges, 2000). A coluna intitulada Índice de 
Graduação é a porcentagem de estudantes que inicialmente se matricularam na universidade e se diploma- 
ram. A coluna intitulada Porcentagem de Classes com Menos de 20 exibe a porcentagem de classes dis- 
poníveis com menos de 20 alunos. A coluna intitulada Razão Estudantes/Professor refere-se ao número de 
estudantes matriculados dividido pelo número total de professores. Finalmente, a coluna intitulada Índice 
de Doação de Ex-alunos é a porcentagem de ex-alunos que fizeram doações à universidade. 


Relatório Administrativo 


1, Use métodos de estatística descritiva para resumir os dados. 


2. Desenvolva uma equação de regressão estimada que possa ser usada para prever o índice de doa- 
ções de ex-alunos, dado o número de estudantes que se graduam. Discuta suas conclusões. 


3. Usando os dados apresentados, desenvolva uma equação de regressão estimada que possa ser usada 
para prever o índice de doações feitas por ex-alunos, 


4. Quais conclusões e recomendações você é capaz de deduzir de sua análise? 


Apéndice 13.1 ~ Regressão Múltipla com o Minitab 


Na Seção 13.2, discutimos a solução computadorizada de problemas de regressão múltipla ao apresen- 
tarmos a saída de dados do Minitab correspondente ao problema da Butler Trucking Company. Neste apên- 
dice, descrevemos as etapas necessárias para gerar a solução computadorizada do Minitab. Primeiramente, 
os dados devem ser inseridos em uma planilha do Minitab. As milhas percorridas são inseridas na coluna 
C1, o número de entregas é inserido na coluna C2 e os tempos de viagem (em horas) são inseridos na colu- 
na C3. Os nomes das variáveis, Miles (Milhas), Deliv (Entrega) e Time (Tempo) foram inseridos como 
cabeçalhos de coluna na planilha, Nas etapas subseqüentes, nos referirmos aos dados usando os nomes das 
variáveis Miles, Deliv e Time ou os indicadores de coluna C1, C2 e C3. As etapas a seguir descrevem como 
usar o Minitab para produzir os resultados de regressão apresentados na Figura 13.4. 


Etapa 1. Selecione o menu Stat 

Etapa 2. Selecione o menu Regression 

Etapa 3. Escolha a opção Regression 

Etapa 4. Quando a caixa de diálogo Regression aparecer: 
Digite Time (Tempo) na caixa Response 
Digite Miles (Milhas) e Deliv (Entrega) na caixa Predictors 
Dê um clique em OK : 
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Tabela 13.7 Dados de 48 Universidades Federais 


ilie 


96 de Razáo Índice de 

2 Índice de Classes com — Estudantes/ Doação de 

ARQUIVO Universidade Estado Graduação Menos de 20 Professor Ex-alunos 
DA INTERNET Boston College MA 85 39 3 25 
Alumni Brandeis University MA 79 68 8 33 
Brown University RI 93 60 8 40 
California Institute of Technology CA 85 65 3 46 
Carnegie Mellon University PA 75 67 0° 28 
Case Western Reserve Univ. OH 72 52 8 31 
College of William and Магу VA 89 45 2 27 
Columbia University NY 90 69 7 31 
Comell University NY 91 72 3 35 
Dartmouth College NH 94 61 0° 53 
Duke University NC 92 68 8 45 
Emory University GA 84 65 7 37 
Georgetown University РА 9! 54 0 29 
Harvard University MA 97 73 8 46 
lohns Hopkins University MD 89 64 9 27 
Lehigh University PA 81 55 | 40 
Massachusetts Inst. of Technology MA 92 65 6 44 
New York University NY 72 63 3 13 
Northwestern University IL 90 66 8 30 
Pennsylvania State Univ. PA 80 32 9 21 
Princeton University NJ 95 68 5 67 
Rice University TX 92 62 8 40 
Stanford University CA 92 69 7 34 
Tufts University MA 87 67 9 29 
Tulane University LA 72 56 2 7 
U. of Califomia-Berkeley CA 83 58 7 8 
U. of Califomia-Davis CA 74 32 9 7 
U. of Califoria-lrvine CA 74 42 20 9 
U. of California-Los Angeles CA 78 41 8 3 
U. of California-San Diego CA 80 48 9 8 
U. of California-Santa Barbara CA 70 45 20 2 
U. of Chicago IL 84 65 4 36 
U. of Florida FL 67 31 23 9 
U. of Ilinois-Urbana Champaign IL 77 29 5 23 
U. of Michigan-Ann Arbor MI 83 51 5 3 
U. of North Carolina-Chapel Hill NC 82 40 6 26 
U. of Notre Dame IN 94 53 3 49 
U. of Pennsylvania РА 90 65 7 41 
U. of Rochester NY 76 63 10 23 
U. of Southern California CA 70 53 3 22 
U. of Texas-Austin TX 66 39 21 13 
U. of Virginia VA 92 44 3 28 
U. of Washington WA 70 37 2 12 
U. of Wisconsin-Madison WI 73 37 3 13 
Vanderbilt University TN 82 68 9 3] 
Wake Forest University NC 82 59 | 38 
Washington University-St. Louis MO 86 73 7 33 
Yale University CT 94 77 7 50 


Apéndice 13.2 – Regressão Múltipla com o Excel 


Na Seção 13.2, discutimos a solução computadorizada de problemas de regressão múltipla ao apresentar- 
mos a saída de dados do Minitab correspondente ao problema da Butler Trucking Company. Neste apên- 


Capítulo 13 


Regressão Múltipla 


dice, descrevemos como usar a ferramenta Regressão do Excel para desenvolvermos a equação de regres- 
são múltipla estimada do problema da Butler Trucking Company. Consulte a Figura 13.10 à medida que 
descrevermos as tarefas envolvidas. Primeiramente, os rótulos Tarefas, Milhas, Entregas e Tempo são inse- 
ridos nas células A1:D1 da planilha e os dados amostrais nas células B2:D11. Os números 1 a 10 nas célu- 
las A2:D1 identificam cada observação. 
As etapas a seguir descrevem como usar a ferramenta Regressão na análise de regressão múltipla. 


Etapa 1. 
Etapa 2. 
Etapa 3. 


Selecione o menu Ferramentas 
Escolha a opção Análise de Dados 
Escolha Regressão na lista de Ferramentas de Análise 


Figura 13.10 Saída de dados do Excel para o problema da Butler Trucking com duas variáveis independentes 


A. B С D| E FT m y d 
1 Tarefa Milhas Entregas | Tempo 
2 l|] . 10. ^ 74.93 
3 2| ER " ИШИ) 
4] 3E 100]. 4[ 89 
5} 4j ^ 100 2 65 
gi 5[ .50 2| 42 
7 ój 801 ^ е 2 6.2 
8 I| a TB a 3 14 
9 8 65 4 6 ] 
10 9]. 90 3 76 
ELE 10[* NJE 7 2 6.1 
12| 
13 [RESUMO DAS SAÍDAS © 
u - 
15} Estatística de Regressão — 
16 |К Múltipla 0.9507 
17]R-Sq. > 0.9038 
18 [8:59 Ajustado 0,8763 
19 | Erro Padrão 0.5731 
20 E Observações CU 
: dece] 
мо Е Significância 
10.8003 | 32.8784 0.0003 
0.3285 8 S 
drm Coeficientes Erro Padrão | Estat. t | Valor p д “Min. 99.0% s E 
a f> 08687 0.9515| -0.91291 0.3916 -3.1188 13813) ~ -41986 _ 24612 
0:0611 0.0099 | 6.1824| 0.0005 0.0378 0.0845 0.0265 0.0957 
> 09234] 0.2211 |_ 4.1763 0.0042 0.4006 144631.  -0.1496 ж 1.6972 


Etapa 4. 


Quando a caixa de diálogo Regressáo aparecer 


Digite DI:D11 na caixa Intervalo Y de Entrada 
Digite B1:C11 na caixa Intervalo X de Entrada 
Marque a opção Rótulos 
Marque a opção Nível de Confiança 
Digite 99 na caixa Nível de Confiança 
Marque a opção Intervalo de Saída 
Digite A13 na caixa Intervalo de Saída (para identificar o canto superior esquer- 
do da parte da planilha em que a saída aparecerá) 
Dê um clique em OK 
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Na saída do Excel apresentada na Figura 13.10, o rótulo da variável independente x, é Milhas (veja a célu- 
la A30), e o rótulo da variável independente x, é Entregas (veja a célula A31). A equação de regressão esti- 
mada é: 


$ = —0,8687 + 0,61 1x, + 0,9234x, 


Note que usar a ferramenta Regressão do Excel para regressão múltipla é quase o mesmo que usá-la para 
regressão linear simples. A principal diferença é que no caso da regressão múltipla é necessário um inter- 
valo maior de células para identificar as variáveis independentes, 
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APÉNDICE B 


Tabelas 


Tabela 1 Distribuição Normal-Padrão 


Área ou 
probabilidade 


Os registros na tabela fornecem a área 
abaixo da curva entre a média e z desvios 
padrão acima da média. Por exemplo, para 
z = 1,25 a área abaixo da curva entre a 


0 z média e z é 0,3944. 
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 
0,2 0,0793 0,0832 0,0871 0.0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 02764 0,2794 0,2823 0,2852 
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 03106 0,3133 
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 
LO 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,362! 
LI 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 
13 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 
E 0,4192 04207 0,4222 0,4236 0425! 0,4265 0,4279 04292 0,4306 0,4319 
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 
1,6 0,4452 0,4463 0,4474 04484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 
17 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 
19 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 
21 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 
23 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 
27 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 
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Tabela 2 Distribuicáo t 


Área ou 


probabilidade 


Os registros na tabela fornecem valores de t 
para uma área ou probabilidade na extremi- 
dade superior da distribuição t. Por exemplo, 
com 10 graus de liberdade e uma área 0,05 na 


9 | cauda superior, logs = 1,812. 
Graus de Área da Cauda Superior 
Liberdade 0,20 0,10 0,05 0,025 0,01 0,005 
| 1,376 3,078 6,314 12,706 31,821 63,656 
2 1,061 ,886 2,920 4,303 6,965 9,925 
3 0,978 ‚638 2,353 3,182 4,541 5,841 
4 0,941 ,533 2,132 2,776 3,747 4,604 
5 0,920 ‚476 2,015 2,571 3,365 4,032 
6 0,206 ,440 ‚943 2,447 3,143 3,707 
7 0,896 ,415 ,895 2,365 2,998 3,499 
8 0,889 397 ‚860 2,306 2,896 3,355 
9 0,883 ,383 ,833 2,262 2,821 3,250 
0 0,879 ‚372 812 2,228 2,764 3,169 
І 0,876 1,363 ‚796 2,201 2,718 3,106 
2 0,873 ,356 ‚782 2,179 2,681 3,055 
3 0,870 ,350 1771 2,160 2,650 3,012 
4 0,868 ‚345 ‚761 2,145 2,624 2,977 
5 0,866 341 ‚753 2,13] 2,602 2,947 
6 0,865 337 1746 2,120 2,583 2,921 
7 0,863 ,333 ‚740 2,110 2,567 2,898 
8 0,862 ,330 1,734 2,101 2,552 2,878 
9 0,861 ‚328 729 2,093 2,539 2,861 
20 0,860 ,325 725 2,086 2,528 2,845 
21 0,859 ,323 721 2,080 2,518 2,831 
22 0,858 ,321 717 2,074 2,508 2,819 
23 0,858 319 у 2,069 2,500 2,807 
24 0,857 318 7101 2,064 2,492 2,797 
25 0,856 316 ‚708 2,060 2,485 2,787 
26 0,856 315 ‚706 2,056 2,479 2,779 
27 0,855 314 ,703 2,052 2,473 2,771 
28 0,855 313 ‚701 2,048 2,467 2,763 
29 0,854 31 ‚699 2,045 2,462 2,756 
30 0,854 310 697 2,042 2,457 2,750 
3l 0,853 ,309 ‚696 2,040 2,453 2,744 
32 0,853 ,309 ‚694 2,037 2,449 2,738 
33 0,853 ,308 ,692 2,035 2,445 2,733 
34 0,852 ‚307 ‚691 2,032 2,441 2,728 


Apéndice B Tabelas 


Tabela 2 Distribuição t (continuação) 


Graus de 
Liberdade 


35 
36 
37 
38 
39 


40 
41 
42 
43 
44 


45 
46 
47 
48 
49 


Área da Cauda Superior 

0,20 0,10 0,05 0,025 0,01 0,005 
0,852 ‚306 1,690 2,030 2,438 2,724 
0,852 ‚306 1,688 2,028 2,434 2,719 
0,851 305 1,687 2,026 2,431 2,715 
0,851 304 1,686 2,024 2,429 2,712 
0,851 ‚304 1,685 2,023 2426 2,708 
0,851 .303 1,684 2,021 2,423 2,704 
0,850 ‚303 1,683 2,020 2,421 2,701 
0,850 302 1,682 2,018 2418 2,698 
0,850 ‚302 1,681 2,017 2,416 2,695 
0,850 301 1,680 2,015 2414 2,692 
0,850 ‚30! 1,679 2,014 2,412 2,690 
0,850 ,300 1,679 2,013 2,410 2,687 
0,849 300 1,678 2,012 2,408 2,685 
0,849 ,299 1,677 2,011 2,407 2,682 
0,849 ‚299 1,677 2,010 2,405 2,680 
0,849 ‚299 1,676 2,009 2,403 2,678 
0,849 ,298 1,675 2,008 2,402 2,676 
0,849 ,298 1,675 2,007 2,400 2,674 
0,848 ,298 1,674 2,006 2,399 2,672 
0,848 297 1,674 2,005 2,397 2,670 
0,848 297 1,673 2,004 2,396 2,668 
0,848 297 1,673 2,003 2,395 2,667 
0,848 ‚297 1,672 2,002 2,394 2,665 
0,848 296 1,672 2,002 2,392 2,663 
0,848 296 1,671 2,001 2,391 2,662 
0,848 ‚296 1,671 2,000 2,390 2,660 
0,848 296 1,670 2,000 2,389 2,659 
0,847 295 1,670 1,999 2,388 2,657 
0,847 ‚295 1,669 1,998 2,387 2,656 
0,847 ‚295 1,669 1,998 2,386 2,655 
0,847 ‚295 1,669 1,997 2,385 2,654 
0,847 ‚295 1,668 1,997 2,384 2,652 
0,847 ‚294 1,668 1,996 2,383 2,651 
0,847 ‚294 1,668 1,995 2,382 2,650 
0,847 ‚294 1,667 1,995 2,382 2,649 
0,847 ‚294 1,667 1,994 2,38! 2,648 
0,847 294 1,667 1,994 2,380 2,647 
0,847 ‚293 1,666 1,993 2,379 2,646 
0,847 ‚293 1,666 1,993 2,379 2,645 
0,847 293 1,666 1,993 2,378 2,644 
0,846 293 1,665 1,992 2,377 2,643 
0,846 293 1,665 1,992 2,376 2,642 
0,846 ‚293 1,665 1,991 2,376 2,641 
0,846 292 1,665 1,991 2,375 2,640 
0,846 ‚292 1,664 1,990 2,374 2,639 
0,846 ‚292 1,664 1,990 2,374 2,639 
0,846 292 1,664 1,990 2,373 2,638 
0,846 292 1,664 1,989 2,373 2,637 
0,846 ‚292 1,663 1,989 2,372 2,636 
0,846 292 1,663 1,989 2,372 2,636 
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Tabela 2 Distribuição t (continuação) 


Graus de Área da Cauda Superior 

Liberdade 0,20 0,10 0,05 0,025 0,01 0,005 
85 0,846 ‚292 663 988 2,371 2,635 
86 0,846 29 663 988 2,370 2,634 
87 0,846 29 663 ‚988 2,370 2,634 
88 0,846 29 662 987 2,369 2,633 
89 0,846 ,29 ‚662 ‚987 2,369 2,632 
90 0,846 ‚29 ‚662 987 2,368 2,632 
91 0,846 ‚29 662 986 2,368 2,631 
92 0,846 ‚29 662 ‚986 2,368 2,630 
9з 0,846 29 661 986 2,367 2,630 
94 0,845 29 ‚661 ,986 2,367 2,629 
95 0,845 ‚29 661 985 2,366 2,629 
96 0,845 ‚290 ‚661 ‚985 2,366 2,628 
97 0,845 1290 66] 985 2,365 2,627 
98 0,845 ,290 ‚661 ‚984 2,365 2,627 
99 0,845 ,290 660 ‚984 2,364 2,626 
100 0,845 ‚290 660 ‚984 2,364 2,626 
© 0,842 ‚282 645 960 2,326 2,576 


Apéndice B Tabelas 


Tabela 3 Distribuição do Quiquadrado 


Os registros na tabela fornecem valores de x2, em que A é a área ou probabilidade na cauda superior da 
distribuição de quiquadrado. Por exemplo, com 10 graus de liberdade e uma área de 0,01 na cauda supe- 


Área ou 


probabilidade 


rior, X2o = 23,2093. 


Ха 


Área da Cauda Superior 
Graus de 

Liberdade 0,995 0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,005 
і 0,000 0,000 0,001 0,004 0016 2,706 3,841 5,024 6,635 7,879 
2 0,010 0,020 0,051 0,103 0211 4,605 5,991 7,378 9210 10,597 
3 0,0072 0,115 026 0,352 0,584 6,251 7,815 9,348 11,345 12,838 
4 0,207 0297 0,484 0711 1,064 7,779 9,488 11,143 13277 14,860 
5 0,412 0,554 0,831 1,145 1.610 9,236 11,070 12,832 15,086 16,750 
6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548 
7 0,989 1,239 1690 2,167 2,833 12,017 14067 16,013 18,475 20,278 
8 1,344 1647 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955 
9 1735 2,088 2,700 3,325 4,168 14,684 16919 19,023 21,666 23,589 
0 2,156 2558 3,247 3,940 4,865 15987 18307 20,483 23,209 25,188 

| 2,603 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725 26,757 
2 3074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,300 
3 3,565 4,107 5,009 5,892 704] 19,812 22,362 24,736 27688 29,819 
14 4075 | 4660 5,629 6,571 7,790 21064 23,685 26,119 29,141 31,319 
5 4.601 5,229 6262 726! 8,547 22,307 24996 27,488 30,578 32,801 
6 5.142 5,812 6908 7,962 9,312 23,542 26,296 28845 32,000 34,267 
7 5,697 648 | 7,564 8672 0,085 24769 27,587 30,191 33,409 35,718 
8 6265 7015 823] 9,390 0,865 25,989 28869 31,526 34,805 37,156 
9 6,844 7,633 8,907 0,117 1,651 27204 30,144 32,852 36,191 38,582 
20 7434 8260 9,591 0,851 2443 28,412 31,410 34,170 37,566 39,997 
21 8,034 8,897 10,283 1,591 3240 29,615 32,671 35,479 38,932 41,401 
22 8,643 9,542 10,982 12,338 1404] 30,813 33,924 3678] 40289 42,796 
23 9,260 10,196 11,689 13,091 4,848 32,007 35,172 38,076 41,638 44,181 
24 9,886 10,856 12,401 3,848 15,659 33,196 36,415 39,364 .42,980 45,558 
25 10,520 11,524 13,120 14,611 6,473 34,382 37,652 40,646 44314 46,928 
26 11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290 
27 11,808 12,878 14,573 16,151 8,14 36,741 40,113 43,195 46,963 49,645 
28 12,461 13,565 15,308 16,928 18,939 37,916 41337 44,461 48,278 50,994 
29 13,121 14256 16,047 17.708 19,768 39,087 42,557 45,722 49,588 52,335 
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Tabela 3 Distribuição do Quiquadrado (continuação) 


Área da Cauda Superior 

Graus de 

Liberdade 0,995 0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,005 
30 13,787 14,953 16,791 18,493 20,599 40,256 43,773 46,979 50,892 53,672 
35 17,192 18,509 20,569 22,465 24,797 46,059 49,802 53,203 57,342 60,275 
40 20,707 22,164 24,433 26,509 29,051 51,805 55,758 59,342 63,691 66,766 
45 24,311 25,901 28,366 30,612 33,350 57,505 61,656 65,410 69,957 73,166 
50 27,991 29,707 32,357 34,764 37,689 63,167 67,505 71,420 76,154 79,490 
55 31,735 33,571 36,398 38,958 42,060 68,796 73,311 77,380 82,292 85,749 
60 35,534 37,485 40,482 43,188 46,459 74,397 79,082 83,298 88,379 91,952 
65 39,383 41,444 44,603 47,450 50,883 79,973 84,821 89,177 94,422 98,105 
70 43,275 45,442 48,758 51,739 55,329 85,527 90,531 95,023 100,425 104215 
75 47,206 49,475 52,942 56,054 59,795 91,061 96,217 100,839 106,393 110,285 
80 51,172 53,540 57,153 60,391 64,278 96,578 101,879 106,629 112,329 116,321 
85 55,170 57,634 61,389 64,749 68,777 102,079 107,522 112,393 118,236 122,324 
90 59,196 61,754 65,647 69,126 73,291 107,565 113,145 118,136 124,116 128,299 
95 63,250 65,898 69,925 73,520 77,818 113,038 118,752 123,858 129,973 134,247 
100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,170 


Tabela 4 Distribuição Р 


Área ou 
probabilidade 


0 Fa 
Os registros na tabela fornecem valores de F, em que о é a área ou probabilidade na cauda superior da distribuição F. Por exemplo, com 4 
graus de liberdade do numerador, 8 graus de liberdade do denominador, e uma área de 0,05 na cauda superior, Foos = 3,48. 


Graus de Área na ` Graus de Liberdade do Numerador 
Liberdade do Cauda 
Denominador Superior І 2 3 4 5 6 7 8 5 10 15 20 25 30 40 60 100 1.000 


l 0,10 39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 61,22 61,74 62,05 6226 62,53 62,79 63,01 63,30 
005 161,45 199,50 215,71 22458 230,16 23399 23677 23888 240,54 241,88 245,95 24802 24926 25040 251,14 25220 25304 25419 
0,025 647,79 79948 86415 899,60 921,83 9371! 94820 95664 96328 96863 98487 99308 99809 1.001,40 1.005,00 1.00979 1.013,16 1.017,76 
0.01 4.052,18 4.99934 5.403,53 5.62426 5.763,96 5.858,95 5.928,33 5.980,95 6.022,40 6.055,93 6.156,97 6.208,66 6.239,86 6.260,35 628643 6.312,97 6.333,92 6.362,80 


2 0.10 8,53 9,00 9,16 924 9,29 933 9,35 9,37 9,38 9,39 9,42 9,44 9,45 9,46 9,47 947 9,48 9,49 
0.05 18,51 19,00 19,16 1925 19,30 19,33 19,35 19,37 19,38 19,40 19,43 19,45 19,46 19,46 19,47 19,48 19,49 19,49 
0,025 38,51 39,00 39,17 3925 39,30 39.33 39,36 39,37 39.39 39,40 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,50 
0,01 98,50 99,00 99,16 99,25 99,30 99.33 99,36 99,38 99,39 99,40 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,50 


3 0,10 5,54 5,46 5,39 5,34 5,3] 5,28 5,27 5,25 5,24 523 5,20 5,18 5,17 5.7 5,16 5,15 5,14 5,3 
0,05 10,13 9,55 9,28 9,12 901 8,94 8,89 8,85 8,81 8,79 8,70 8,66 8,63 8.62 8,59 8,57 8,55 8,53 
0,025 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 1425 14,17 1412 14,08 14,04 13,99 13,96 13,91 
0,01 34,12 30,82 29,46 28,71 28,24 2791 27,67 27,49 27,34 2723 2687 26,69 26,58 26,50 26,41 26,32 2624 26,14 


4 0,10 4,54 432 419 41 405 401 358 3,95 394 3.92 3,87 384 3,83 3,82 3,80 379 378 3,76 
0,05 77 694 6,59 6,39 626 6.16 609 6,04 600 5,96 5,86 5,80 577 5,75 572 5,69 5,66 5,63 
0005 1222 1065 9,98 9,60 936 920 907 8,98 8,90 8,84 8,66 8,56 8,50 8,46 8,41 8.36 832 826 
00! 2120 1800 1669 1598 1552 1521 1498 1480 1466 1455 1420 1402 13,91 1384 1375 1365 (1358 1347 
5 0,10 406 378 3,62 3,52 345 340 337 334 332 330 3324 321 319 347 346 3,14 3,13 341 
0,05 66, 579 541 5,19 5,05 495 488 482 477 474 462 4,56 452 4,50 446 443 44] 437 
0,025 100! 843 736 739 745 6,98 6,85 676 6,68 6,62 643 633 627 623 6,18 6,12 6,08 602 
00! 1626 1327 1206 1139 1097 1067 1046 1029 0,16 1005 972 9,55 945 938 929 920 9,13 9,03 
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Tabela 4 Distribuição F (continuação) 


Graiis de Área па Graus de Liberdade do Numerador 
Liberdade do Cauda 
Graus de Área na Graus de Liberdade do Numerador 
Liberdade do Cauda 

Denomimador Superior 1 А з 4 5 6 7 8 E ю 15 20 25 30 40 60 100 1.000 
é 010 378 346 329 318 зп 305 301 298 296 294 28 284 281 280 28 276 275 272 
005 599 514 476 453 439 428 — 420 415 40 406 39а 387 38 38 37 37 37 36 

005 88 7% 660 623 599 580 570 50 552 546 57 57 Sil 507 SO 4% 492 486 

001 1375 10,92 978 915 875 847 826 вю 798 787 756 740 730 723 714 706 699 689 

7 010 359 326 307 296 288 283 278 275 22 270 26 259 25 256 254 251 250 24 
005 559 474 435 412 397 38) 379 373 36 36 35 344 340 338 334 330 37 3B 

0025 807 654 589 552 529 — 512 499 480 48 476 457 447 440 436 431 425 421 415 

001 1225 955 845 785 746 — 719 699 689 672 66) 63! 616 606 599 59! 582 575 566 

8 010 346 34 292 281 — 273 267 2620 259 256 254 246 24€ 240 238 236 234 232 230 
005 532. 446 407 384 369 358 350 344 339 335 322 315 зп 308 304 30 29 28 

0005 757 6% 542 — 505 — 482 465 453 — 443 — 436 — 430 410 400 — 394 389 38 378 374 368 

001 1126 8865 759 700 бз 637 68 60 59!  S8l 55 536 526 520 52 50 496 487 

9 010 336 30 18! — 269 261 255 251 24 24 24 234 230 27 25 23 эл 29 216 
005 512 426 386 363 34 337 32 3з зав за 301 294 289 286 28 27 2% 27H 

0025 721 57 508 472 448 4320 40 40 403 396 37 367 36 2356 35 345 34 334 

001 1056 802 699 — 642 606 580 561 547 535 526 496 48 47 465 A5 ' 448 44 AR 

10 010 32 292 273 261 252 246  24| 238 235 230 224 220 27 26 23 20 20 206 
005 496 40 371 348 — 33 322 314 30 30 298 28 27 23 20 26 28 259 25 

0025 699 546 з 447 42а 407 395 — 385 378 372 352 342 335 331 326 320 315 309 

001 1004 7,56 $55 599 564 539 520 506 499 485 456 4а 431 45 47 408 401 392 

H 010 323 286 266 — 254 245 239 234 — 230 207 з 217 22 20 208 205 20 20 1,98 
005 484 398 359 — 336 320 309 301 295 290 285 2/72 265 260 257 253 249 246 24 

0025 672 526 з 428 40 388 376 366 359 3533 333 323 36 312 306 300 296 289 

001 965 721 622 567 532 507 489 44 46 4S4 425 410 40 394 386 378 37 зы 

2 ою 318 281 26i — 248 — 239 233 228 224 зл 219 210 206 2з 201 1399 196 1494 9 
005 475 3,89 349 — 326 зи 300 29! 285 280 275 28 25 250 24 24 238 235 230 

0005 655 5,0 44 м? 389 37 361 351 34 337 318 307 30 296  29| 285 280 273 

00! 933 65 5395 — S4 — 506 — 482 464 — 450 439 430 40i 386 376 37 3&8 359 349 337 

13 010 314 276 256 243 235 28 23 220 216 214 205 20 198 — 196 — 193 — 190 188 185 
005 467 381 34 оз зз — 292 283 27  27| 28 253 246  24| эз 234 230 226 22 

0025 641 497 435 400 377 360 зз зз 33! 325 305 295 288 28 эз 27 28 260 

001 907 670 574 — 520 — 486 — 462 44 430 419 40 38 366 357 351 Заз 334 32 318 

14 910 310 2723 252 239 231 24 219 215 242 210 20 196 — 193 — 199 — 189 — 186 з (80 
005 460 374 334 зи — 296 — 285 — 276 270 265 260 246 239 234 BI 22 22 219 214 

0025 630 486 424 389 366 350 338 329 32 315 295 284 278 23 28 26 256 250 

001 886 651 556 — 504 469 446 428 419 403 — 394 366 351 34 335 32 318 зи 30 

15 010 30 270 249 2136 227 221 2416 22 20 206 197 192 189 — 48 185 IV — 17 1% 
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Tabela 4 Distribuição F (continuação) 


0,05 4,54 3.68 329 3,06 2,90 279 271 2,64 2,59 254 . 240 2,33 2,28 2,25 220 2,16 212 2,07 

0025 620 447 415 3,80 3,58 341 329 3,20 3,12 3,06 2,86 246 2,69 2,64 2,59 2,52 247 2,40 

0,01 8,68 6,36 5,42 4,89 4,56 432 414 400 3,89 3,80 3,52 3,37 328 321 3,13 3,05 2,98 2,88 

Graus де Área па Graus de Liberdade do Numerador 
Liberdade do Cauda 

Denominador Superior 1 2 3 4 5 6 7 8 9 10 15 20 25 30 40 60 100 1.000 
l6 0,10 3,05 2,67 2,46 2,33 224 2,18 2,13 2,09 2,06 2,03 1,94 1,89 1,86 1,84 1,81 1,78 1,76 472 
0,05 4,49 3,63 324 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,35 228 223 2,19 245 21) 2,07 202 

0,025 6,12 4,69 4,08 3,73 3,50 3.34 3,22 3,12 3,05 2,99 2,79 2,68 261 257 2,51 2,45 2,40 232 

0,01 8,53 623 529 477 4,44 420 403 3,89 3,78 3,69 341 3,26 3,16 3,40 3,02 2,93 2,86 2,76 

17 0,10 3,03 2.64 2,44 231 222 245 2,10 2,06 2,03 2,00 191 1,86 1,83 1,81 1,78 1,75 1,73 1,69 
0,05 4,45 3,59 3,20 2,96 281 2,70 2.61 2,55 2,49 2,45 231 223 2.18 215 2,10 2,06 2,02 1,97 

0,025 6.04 4,62 401 3,66 3,44 3.28 3.16 3,06 2,98 2,92 272 262 2,55 2,50 2,44 2,38 2,33 236 

0,01 8,40 6,11 5,19 467 434 410 3,93 3,79 3,68 3,59 331 3,16 3,07 3,00 2,92 2,83 2,76 2,66 

18 0,10 3,01 2,62 242 229 220 2,13 2,08 204 2,00 1,98 1.89 1,84 1.80 1,78 1,75 172 170 1.66 
0,05 441 3,55 3,16 2,93 277 2,66 2,58 2,51 2,46 2,41 227 2,19 2.14 2,11 2,06 202 1,98 1.92 

0,025 5,98 4,56 3,95 3,61 3,38 322 3,10 301 2,93 2,87 2,67 2,56 2,49 2,44 2,38 2,32 227 2,20 

001 8,29 601 5,09 4,58 425 4,01 3,84 371 3,60 3,51 3,23 3,08 2,98 2,92 2,84 245 2,68 2,58 

19 0.10 2,99 2,61 2,40 227 2,18 24 2,06 2,02 1,98 1,96 1.86 |81 1,78 1,76 1,73 1.70 1,67 1,64 
0,05 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 242 2,38 223 2,46 2,1 2,07 203 1,98 1.94 1.88 

0,025 5,92 4,51 3,90 3,56 3,33 317 3,05 2,96 2,88 2,82 2,62 251 2,44 239 2,33 227 222 2.14 

0.01 8,18 5,93 5,01 4.50 417 3,94 377 3,63 352 3.43 3.15 3,00 2,91 2,84 2,76 2,67 2,60 2,50 

20 0,10 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1.96 1,94 1,84 1,79 1,76 1,74 1,71 1.68 1,65 1,61 
0,05 435 3,49 3,10 2,87 271 2,60 251 2,45 239 2,35 2,20 212 2,07 2.04 1,99 595 1,91 1,85 

0,025 5,87 4,46 3,86 3,51 3,29 3,13 301 291 2,84 277 257 2,46 2,40 2,35 2,29 222 2,17 2,09 

0,01 8,10 5,85 4,94 443 410 3,87 3,70 3,56 3,46 337 3,09 294 2,84 2,78 2,69 2,61 2,54 243 

21 0,10 2,96 2,57 2,36 233 2,14 208 202 1,98 1,95 1,92 1,83 1.78 174 ^72 1,69 1,66 1,63 1,59 
0,05 432 3,47 3,07 2,84 2,68 2,57 2,49 242 237 232 2,18 2,10 2,05 201 1,96 1,92 1.88 1,82 

0,025 5,83 442 3,82 3,48 3,25 3,09 297 2,87 2,80 2,73 2,53 2,42 2,36 23! 2,25 2,18 2.13 2,05 

001 8,02 5,78 487 437 404 38 3,64 3,51 3,40 331 3,03 2,88 2,79 2,72 2.64 2,55 2,48 237 

22 0,10 2,95 2,56 235 222 2,3 2,06 201 1,97 1,93 1,90 8l 1,76 173 1,70 1,67 1,64 1,61 1,57 
0,05 430 3,44 3,05 2,82 2,66 2,55 2,46 2,40 234 2,30 215 2,07 2,02 1,98 1,94 1,89 1,85 1,79 

0,025 5,79 438 3,78 3,44 322 3,05 2,93 2,84 276 270 2,50 2,39 232 2,27 221 2,14 2,09 201 

0,01 7.95 572 482 431 3,99 3,76 3,59 3,45 3,35 326 2,98 2,83 2,73 2,67 2,58 2,50 2,42 232 

23 0,10 2,94 2,55 234 221 241 2,05 1,99 1,95 1,92 1,89 1,80 1,74 171 1,69 1.66 1,62 1,59 1,55 
0,05 428 342 3,03 2,80 2,64 2,53 2,44 237 232 227 2,13 2,05 2,00 1,96 1,91 1,86 1,82 1,76 

0,025 5,75 435 3,75 341 3,18 302 2,90 2,81 2,73 267 247 2,36 2,29 224 2,18 2, 2,06 1,98 

0,01 7.88 5,66 476 426 3,94 371 3,54 341 3,30 321 2,93 2,78 2,69 2,62 2,54 2,45 2,37 227 

24 0,10 2,93 2,54 2,33 2,19 2,10 2,04 1,98 1.94 1,91 1.88 1.78 123 1,70 1,67 1,64 1,6] 1,58 1,54 
0,05 426 3,40 3,01 2,78 2,62 2,51 242 236 2,30 2,25 2,1! 2,03 1,97 1.94 1,89 1.84 180 1,74 

0,025 5,72 432 372 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,44 2,33 2,26 221 2,45 2,08 202 1,94 

0,0) 7,82 5,61 472 422 3,90 3,67 3,50 3,36 3,26 3.7 2,89 2,74 2,64 2,58 2,49 2,40 2,33 222 
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Tabela 4 Distribuição F (continuação) 


Graus de Área na Graus de Liberdade do Numerador 
Liberdadedo Cauda 

Denominador Superior | 2 3 4 5 é 7 8 э бо о — 2 B 30 ю в 100 100 
25 010 2932 258 232 28 20 20 19 193 189 487 47 2 AB в з эз 156 152 
005 — 4M — 339 29 276 20 249 24 23 228 24 20 201 196 19) з 18 178 172 

0005 569 429 369 335 313 297 285 2% 26 ы  24| 230 223 218 212 205 20 19] 

001 — 77 557 46 48 35 30 346 332 32 зиз 285 2/0 20 254 24 236 223 21 

26 о 29! 292 231 27 мз 20 196 1932 188 186 176 л — 4€ М м — 158 ASS LSI 
005 4238 33 298 274 259 24€ 29 22 207 2 210 19 194 190 18 18 176 — 170 

095 566 42 367 33 30 294 28 273 265 29 19 228 эл 216 2X9 20 19 189 

00! — 772 553 464 44 — 392 — 359 30 32 318 30 28 266 25 250 22 23 225 2M 

7 010 — 290 251 230 27 207 200 195 19! ME в — 175 70 в — 164 — 180 7 54 150 
O05 Ай 335 296 2D 257 246 237 231 225 2230 206 197 192 188 1% 19 — 4 168 

005 568 424 365 331 308 29 28 27 28 29 236 225 288 203 20 20 19 ив 

OO! — 768 — 549 460 4l 3з 356 зз 326 3з 306 278 280 29 24 238 229 22 2 

28 о — 28 250 229 ié 206 200 194 190 їз UM IM з в мз э 1% — 15 — 148 
005 420 334 295 л 256 245 236 229 2м мэ 204 1% 190 187 юй 17 IB 16 

0025 561 42 36 309 306 290 278 20 26 25 23 з 26 2! 205 198 192 18 

OOI — 764 55 457 47 3% 353 336 303 32 30 275 26 28 24 23 226 219 2% 

29 о 289 250 228 мз 206 19 з з в з L73 мв м LE з 155 4$ 147 
005  4l8 3з 29 270 255 249 235 228 222 218 20) 194 189 185 вр 175 IM 165 

005 559 420 361 327 304 288 276 267 259 29 22 20 24 20 20 196 190 8 

O0! — 760 540 454 404 зз 350 333 — 320 309 300 273 257 248 241 23 22 216 205 

30 010 — 288 249 228 214 205 198 з 188 185 182 ADO 41€ з ы з м ISO 146 
00 М7 32 292 20 2198 290 213 227 22! 216  20| 193 188 184 17 174 i170 16 

005 557 418 39 35 30 28 2/5 26 257 251 23 220 22 207  20| 194 188 180 

00! — 756 — 539 451 402 — 370 3€ 330 317 307 298 270 255 245 239 23 2201 20 20 

в OIO 284 24 23 20 20 19 187 з I9 в 166 ы — (8 #4 у 18 143 18 
005 408 323 284 26 245 23 2205 218 212 208 19» 184 178 174 16 16 5 152 

005 5€ 405 346 зиз 290 274 2€ 25 14 239 218 20 199 19^ з эю 174 165 

001 — 73! 518 431 38 351 329 312 29 28 28 23» 237 22 220 2! 29 194 18 

E. о 279 239 мз 204 195 їз BAT MI л ID USA SD з ш 140 мв 030 
005 40 315 276 25 23 2205 м7 20 20 19 19 175 MB — V6 19 V9 LB 14 

0025 59 3933 339 300 20 28 25) 24 23 27 206 19 їз 182 174 у 160 19 

OO! — 708 498 Ыз 36 23M 32 295 28 2721 2680 235 220 210 203 194 UM 175 tê 

100 010 — 276 236 24 200 19! 183) з з ө 166 — 56 з — 145 мю ыз I4 12 12 
O05 — 394 309 270 246 23! 219 210 200 19) 193 V7 168 б 159 19 1% 19 130 

0025 58 383 325 29» 270 254 242 23 2M 218 197 485 17 л е в 148 1% 

ой — 630 — 48 зз 351 320 29 28 260 259 259 22 20 19 з 18 169 160 15% 

1000 0l0 л л 209 195 485 мз L72 в м шы 069 з в 1з 130 з 120 108 
O05 — 385 300 26 238 222 2 202 195 з 184 168 м — 19 у 14 — 03 06 Ll 

0025 504 зло 313 280 258 24) 230 220 мз 206 1485 172 м 158 ISO л o 03» ыз 

001 666 зз 380 3M 304 28 24 253 20 214 229 19 эз Uh i£ 150 138 LH 
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Apéndice В Tabelas 


Tabela 5 Probabilidades Binomiais 


Os registros na tabela fornecem a probabilidade de x sucessos em n ensaios de um experimento binomial, 
em que p é a probabilidade de sucesso em um ensaio. Por exemplo, com seis ensaios e p = 0,05, a proba- 


bilidade de dois sucessos é 0,0305. 


р 


0,01 


0,02 


0,03 


0,04 


0,05 


0,06 


0,07 


0,08 


0,09 


соо ч Ov (n RU NM — о молил у ю— о QU c UG NP — 0 сл шю -—QO мш кю — о wHi-—o мо |х 


0,9801 
0,0198 
0,0001 


0,9703 
0,0294 
0,0003 
0,0000 


0,9606 
0,0388 
0,0006 
0,0000 
0,0000 


0,9510 
0,0480 
0,0010 
0,0000 
0,0000 
0,0000 


0,9415 
0,0571 
0,0014 
0,0000 
0,0000 
0,0000 
0,0000 


0,2321 
0,0659 
0,0020 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,9227 
0,0746 
0,0026 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,9604 
0,0392 
0,0004 


0,9412 
0,0576 
0,0012 
0,0000 


0,9224 
0,0753 
0,0023 
0,0000 
0,0000 


0,9039 
0,0922 
0,0038 
0,0001 
0,0000 
0,0000 


0,8858 
0,1085 
0,0055 
0,0002 
0,0000 
0,0000 
0,0000 


0,8681 
0,1240 
0,0076 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 


0,8508 
0,1389 
0,0099 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,9409 
0,0582 
0,0009 


0,9127 
0,0847 
0,0026 
0,0000 


0,8853 
0,1095 
0,0051 
0,0001 
0,0000 


0,8587 
0,1328 
0,0082 
0,0003 
0,0000 
0,0000 


0,8330 
0,1546 
0,0120 
0,0005 
0,0000 
0,0000 
0,0000 


0,8080 
0,1749 
0,0162 
0,0008 
0,0000 
0,0000 
0,0000 
0,0000 


0,7837 
0,1939 
0,0210 
0,0013 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 


0,2216 
0,0768 
0,0016 


0,8847 
0,1106 
0,0046 
0,0001 


0,8493 
0,1416 
0,0088 
0,0002 
0,0000 


0,8154 
0,1699 
0,0142 
0,0006 
0,0000 
0,0000 


0,7828 
0,1957 
0,0204 
0,0011 
0,0000 
0,0000 
0,0000 


0,7514 
0,2192 
0,0274 
0,0019 
0,0001 
0,0000 
0,0000 
0,0000 


0,7214 
0,2405 
0,0351 
0,0029 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 


0,9025 
0,0950 
0,0025 


0,8574 
0,1354 
0,0071 
0,0001 


0,8145 
0,1715 
0,0135 
0,0005 
0,0000 


0,7738 
0,2036 
0,0214 
0,0011 
0,0000 
0,0000 


0,7351 
02321 
0,0305 
0,0021 
0,0001 
0,0000 
0,0000 


0,6983 
0,2573 
0,0406 
0,0036 
0,0002 
0,0000 
0,0000 
0,0000 


0,6634 
0,2793 
0,0515 
0,0054 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 


0,8836 


0, 


28 


0,0036 


0,8306 
0,1590 


00 


02 


0,0002 


0,7807 
0,1993 


00 


91 


0,0008 
0,0000 


0,7339 
0,2342 
0,0299 
0,0019 
0,0001 
0,0000 


0,6899 
0,2642 
0,0422 
0,0036 
0,0002 
0,0000 
0,0000 


0,6485 
0,2897 
0,0555 
0,0059 
0,0004 
0,0000 
0,0000 
0,0000 


0,6096 
0,3113 
0,0695 
0,0089 
0,0007 
0,0000 
0,0000 
0,0000 
0,0000 


0,8649 
0,1302 
0,0049 


0,8044 
0,1816 
0,0137 
0,0003 


0,7481 
0,2252 
0,0254 
0,0013 
0,0000 


0,6957 
0,2618 
0,0394 
0,0030 
0,0001 
0,0000 


0,6470 
0,2922 
0,0550 
0,0055 
0,0003 
0,0000 
0,0000 


0,6017 
0,3170 
0,0716 
0,0090 
0,0007 
0,0000 
0,0000 
0,0000 


0,5596 
0,3370 
0,0888 
0,0134 
0,0013 
0,000! 
0,0000 
0,0000 
0,0000 


0,8464 
0,1472 
0,0064 


0,7787 
0,2031 
0,0177 
0,0005 


0,7164 
0,2492 
0,0325 
0,0019 
0,0000 


0,6591 
0,2866 
0,0498 
0,0043 
0,0002 
0,0000 


0,6064 
0,3164 
0,0688 
0,0080 
0,0005 
0,0000 
0,0000 


0,5578 
0,3396 
0,0886 
0,0128 
0.0011 
0,0001 
0,0000 
0,0000 


0,5132 
0,3570 
0,1087 
0,0189 
0,0021 
0,0001 
0,0000 
0,0000 
0,0000 


0,828] 
0,1638 
0,008] 


0,7536 
0,2236 
0,0221 
0,0007 


0,6857 
0,2713 
0,0402 
0,0027 
0,0001 


0,6240 
0,3086 
0,0610 
0,0060 
0,0003 
0,0000 


0,5679 
0,3370 
0,0833 
0,0110 
0,0008 
0,0000 
0,0000 


0,5168 
0,3578 
0,1061 
0,0175 
0,0017 
0,0001 
0,0000 
0,0000 


0,4703 
0,3721 
0,1288 
0,0255 
0,0031 
0,0002 
0,0000 
0,0000 
0,0000 
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Tabela 5 Probabilidades Binomiais (continuação) 


P 


0,01 


0,02 


0,03 


0,04 


‚0,05 


0,06 


0,07 


0,08 


0,09 


© 0 0 - ох ал Ut N — O оомо G1 4 U NM — о |х 


ко = ос `© боо м) хл о юм — о 


Ud шоу кюю — с © со чол - wn © 


0,9135 
0,0830 
0,0034 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,9044 
0,0914 
0,0042 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,8864 
0,1074 
0,0060 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,8601 
0,1303 
0,0092 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,8337 
0,1531 
0,0125 
0,0006 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,8171 
0,1667 
0,0153 
0,0008 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,7847 
0,1922 
0,0216 
0,0015 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,7386 
0,2261 
0,0323 
0,0029 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,7602 
0,2116 
0,0262 
0,0019 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,7374 
0,2281 
0,0317 
0,0026 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6938 
0,2575 
0,0438 
0,0045 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6333 
0,2938 
0,0636 
0,0085 
0,0008 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6925 
0,2597 
0,0433 
0,0042 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6648 
0,2770 
0,0519 
0,0058 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6127 
0,3064 
0,0702 
0,0098 
0,0009 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5421 
0,3388 
0,0988 
0,0178 
0,0022 
0,0002 
0,0000 


` 0,0000 


0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6302 
0,2985 
0,0629 
0,0077 
0,0006 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5987 
0,3151 
0,0746 
0,0105 
0,0010 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5404 
0,3413 
0,0988 
0,0173 
0,0021 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4633 
0,3658 
0,1348 
0,0307 
0,0049 
0,0006 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5730 
0,3292 
0,0840 
0,0125 
0,0012 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 


0,5386 
0,3438 
0,0988 
0,0168 
0,0019 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4759 
0,3645 
0,1280 
0,0272 
0,0039 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,3953 
0,3785 
0,1691 
0,0468 
0,0090 
0,0013 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5204 
0,3525 
0.106! 
0,0186 
0,0021 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 


0,4840 
0,3643 
0,1234 
0,0248 
0,0033 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4186 
0,378] 
0,1565 
0,0393 
0,0067 
0,0008 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,3367 
0,3801 
0,2003 
0,0653 
0,0148 
0,0024 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4722 ` 


0,3695 
0,1285 
0,0261 
0,0034 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 


0,4344 
0,3777 
0,1478 
0,0343 
0,0052 
0,0005 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,3677 
0,3837 
0,1835 
0,0532 
0,0104 
0,0014 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2863 
0,3734 
0,2273 
0,0857 
0,0223 
0,0043 
0,0006 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4279 
0,3809 
0,1507 
0,0348 
0,0052 
0,0005 
0,0000 
0,0000 
0,0000 
0,0000 


0,3894 
0,3851 
0,1714 
0,0452 
0,0078 
0,0009 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 


0,3225 
0,3827 
0,2082 
0,0686 
0,0153 
0,0024 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0.0000 


0,2430 
0,3605 
0,2496 
0,1070 
0,0317 
0,0069 
0,0011 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


Apéndice B Tabelas 


Tabela 5 Probabilidades Binomiais (continuação) 


b 


0,01 


0,02 


0,03 


0,04 


0,05 


0,06 


0,07 


0,08 


0,09 


20 


Шеол ою ШО Фо хро л э шо кә — о Ix 


хо о dO олжом SOLO 5 шю —© 


Ds] 
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0,8345 
0,1517 
0,0130 
0,0007 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,8179 
0,1652 
0,0159 
0,0010 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6951 
0,2554 
0,0443 
0,0048 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,6676 
0,2725 
0,0528 
0,0065 
0,0006 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5780 
0,3217 
0,0846 
0,0140 
0,0016 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,5438 
0,3364 
0,0988 
0,0183 
0,0024 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4796 
0,3597 
0,1274 
0,0283 
0,0044 
0,0005 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,4420 
0,3683 
0,1458 
0,0364 
0,0065 
0,0009 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,3972 
0,3763 
0,1683 
0,0473 
0,0093 
0,0014 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,3585 
0,3774 
0,1887 
0,0596 
0,0133 
0,0022 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,3283 
0,3772 
0,2047 
0,0697 
0,0167 
0,0030 
0,0004 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2901 
0,3703 
0,2246 
0,0860 
0,0233 
0,0048 
0,0008 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2708 
0,3669 
0,2348 
0,0942 
0,0266 
0,0056 
0,0009 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2342 
0,3526 
02521 
0,1139 
0,0364 
0,0088 
0,0017 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2229 
0,3489 
0,2579 
0,1196 
0,0390 
0,0095 
0,0018 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0.1887 
0,3282 
02711 
0,1414 
0,0523 
0,0145 
0,0032 
0,0005 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0.0000 
0,0000 


0,1831 

0,3260 
0,2741 

0,1446 
0,0536 
0,0148 
0,0032 
0,0005 
0,0001 

0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,1516 
0,3000 
0,2818 
0,1672 
0,0703 
0,0222 
0,0055 
0,0011 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
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Tabela 5 Probabilidades Binomiais (continuacáo) 


0,10 


0,15 


р 


0,20 


0,25 


0,30 


0,35 


0,40 


0,45 


0,50 
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0,8100 
0,1800 
0,0100 


0,7290 
0,2430 
0,0270 
0,0010 


0,6561 
0,2916 
0,0486 
0,0036 
0,0001 


0,5905 
0,3280 
0,0729 
0,0081 
0,0004 
0,0000 


0,5314 
0,3543 
0,0984 
0,0146 
0,0012 
0,0001 
0,0000 


0,4783 
0,3720 
0,1240 
0,0230 
0,0026 
0,0002 
0,0000 
0,0000 


0,4305 
0,3826 
0,1488 
0,0331 
0,0046 
0,0004 
0,0000 
0,0000 
0,0000 


0,7225 
0,2550 
0,0225 


0,6141 
0,3251 
0,0574 
0,0034 


0,5220 
0,3685 
0,0975 
0,0115 
0,0005 


0,4437 
0,3915 
0,1382 
0,0244 
0,0022 
0,0001 


0,3771 
0,3993 
0,1762 
0,0415 
0,0055 
0,0004 
0,0000 


0,3206 
0,3960 
0,2097 
0,0617 
0,0109 
0,0012 
0,0001 
0,0000 


0,2725 
0,3847 
0,2376 
0,0839 
0,0185 
0,0026 
0,0002 
0,0000 
0,0000 


0,6400 
0,3200 
0,0400 


0,5120 
0,3840 
0,0960 
0,0080 


0,4096 
0,4096 
0,1536 
0,0256 
0,0016 


0,3277 
0,4096 
0,2048 
0,0512 
0,0064 
0,0003 


0,2621 
0,3932 
0,2458 
0,0819 
0,0154 
0,0015 
0,0001 


0,2097 
0,3670 
0,2753 
0,1147 
0,0287 
0,0043 
0,0004 
0,0000 


0,1678 
0,3355 
0,2936 
0,1468 
0,0459 
0,0092 
0,0011 
0,0001 
0,0000 


0,5625 
0,3750 
0,0625 


0,4219 
0,4219 
0,1406 
0,0156 


0,3164 
0,4219 
0,2109 
0,0469 
0,0039 


0,2373 
0,3955 
0,2637 
0,0879 
0,0146 
0,0010 


0,1780 
0,3560 
0,2966 
0,1318 
0,0330 
0,0044 
0,0002 


0,1335 


031 
031 


0,1730 
0,0577 


0,0! 
0,00 


0,0001 


0,1001 
0,2670 


0,31 


5 
5 


5 
3 


5 


0,2076 
0,0865 
0,0231 
0,0038 
0,0004 
0,0000 


0,4900 
0,4200 
0,0900 


0,3430 
0,4410 
0,1890 
0,0270 


0,2401 
04116 
0,2646 
0,0756 
0,0081 


0,1681 
0,3602 
0,3087 
0,1323 
0,0284 
0,0024 


0,1176 
0,3025 
0,3241 
0,1852 
0,0595 
0,0102 
0,0007 


0,0824 
0,2471 
0,3177 
0,2269 
0,0972 
0,0250 
0,0036 
0,0002 


0,0576 
0,1977 
0,2965 
0,2541 
0,1361 
0,0467 
0,0100 
0,0012 
0,0001 


0,4225 
0,4550 
0,1225 


0,2746 
0,4436 
0,2389 
0,0429 


0,1785 
0,3845 
0,3105 
0,1115 
0,0150 


0.1160 
0,3124 
0,3364 
0,1811 
0,0488 
0,0053 


0,0754 
0,2437 
0,3280 
0,2355 
0,0951 
0,0205 
0,0018 


0,0490 
0,1848 
0,2985 
0,2679 
0,1442 
0,0466 
0,0084 
0,0006 


0,0319 
0,1373 
0,2587 
0,2786 
0,1875 
0,0808 
0,0217 
0,0033 
0,0002 


0,3600 
0,4800 
0,1600 


0,2160 
0,4320 
0,2880 
0,0640 


0,1296 
0,3456 
0,3456 
0,1536 
0,0256 


0,0778 
0,2592 
0,3456 
0,2304 
0,0768 
0,0102 


0,0467 
0,1866 
0,3110 
0,2765 
0,1382 
0,0369 
0,0041 


0,0280 
0,1306 
0,2613 
0,2903 
0,1935 
0,0774 
0,0172 
0,0016 


0,0168 
0,0896 
0,2090 
0,2787 
0,2322 
0,1239 
0,0413 
0,0079 
0,0007 


0,3025 
0,4950 
0,2025 


0,1664 
0,4084 
0,3341 
0,0911 


0,0915 
0,2995 
0,3675 
0,2005 
0,0410 


0,0503 
0,2059 
0,3369 
0,2757 
0,1128 
0,0185 


0,0277 
0,1359 
0,2780 
0,3032 
0,1861 
0,0609 
0,0083 


0,0152 
0,0872 
0,2140 
0,2918 
0,2388 
0,1172 
0,0320 
0,0037 


0,0084 
0,0548 
0,1569 
0,2568 
0,2627 
0,1719 
0,0703 
0,0164 
0,0017 


0.2500 
0,5000 
0,2500 


0,1250 
0,3750 
0,3750 
0,1250 


0,0625 
0,2500 
0,3750 
0,2500 
0,0625 


0,0312 
0,1562 
0,3125 
0,3125 
0,1562 
0,0312 


0,0156 
0,0938 
0,2344 
0,3125 
0,2344 
0,0938 
0,0156 


0,0078 
0,0547 
0,1641 
0,2734 
0,2734 
0,1641 
0,0547 
0,0078 


0,0039 
0,0312 
0,1094 
0,2188 
0,2734 
0,2188 
0.1094 
0,0313 
0,0039 
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Tabela 5 Probabilidades Binomiais (continuação) 


р 


0,10 


0.15 


0,20 


0,25 


0,30 


0,35 


0,40 


0,45 


0,50 


LOTA Uo) LO NO — о DONA UD hU N — © |х 


BIGoodouaBumv-—o 


л ъ©б кю Жоо мол кошок — о 


0,3874 
0,3874 
0,1722 
0,0446 
0,0074 
0,0008 
0,0001 
0,0000 
0,0000 
0,0000 


0,3487 
0,3874 
0,1937 
0,0574 
0,0112 
0,0015 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 


0,2824 
0,3766 
0,2301 
0,0853 
0,0213 
0,0038 
0,0005 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2059 
0,3432 
0,2669 
0,1285 
0,0428 
0,0105 
0,0019 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,2316 
0,3679 
0,2597 
0,1069 
0,0283 
0,0050 
0,0006 
0,0000 
0,0000 
0,0000 


0,1969 
0,3474 
0,2759 
0,1298 
0,0401 
0,0085 
0,0012 
0,0001 
0,0000 
0,0000 
0,0000 


0,1422 
0,3012 
0,2924 
0,1720 
0,0683 
0,0193 
0,0040 
0,0006 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 


0,0874 
0.2312 
0,2856 
0,2184 
0,1156 
0,0449 
0,0132 
0,0030 
0,0005 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,1342 
0,3020 
0,3020 
0,1762 
0,0661 
0,0165 
0,0028 
0,0003 
0,0000 
0,0000 


0,1074 
0,2684 
0,3020 
0,2013 
0.0881 
0,0264 
0,0055 
0,0008 
0,000! 
0,0000 
0,0000 


0,0687 
0,2062 
0,2835 
02362 
0,1329 
0,0532 
0,0155 
0,0033 
0,0005 
0,0001 
0,0000 
0,0000 
0,0000 


0,0352 
0,1319 
0,2309 
0,2501 
0,1876 
0,1032 
0,0430 
0,0138 
0,0035 
0,0007 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0751 
0,2253 
0,3003 
0,2336 
0,1168 
0,0389 
0,0087 
0,0012 
0,0001 
0,0000 


0,0563 
0,1877 
0,2816 
0,2503 
0,1460 
0,0584 
0,0162 
0,0031 
0,0004 
0,0000 
0,0000 


0,0317 
0,1267 
0,2323 
0,2581 
0,1936 
0,1032 
0,0401 
0,0115 
0,0024 
0,0004 
0,0000 
0,0000 
0,0000 


0,0134 
0,0668 
0,1559 
0,2252 
0,2252 
0,1651 
0,0917 
0,0393 
0,0131 
0,0034 
0,0007 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 


0,0404 
0,1556 
0,2668 
0,2668 
0,1715 
0,0735 
0,0210 
0,0039 
0,0004 
0,0000 


0,0282 
0,1211 
0,2335 
0,2668 
0,2001 
0,1029 
0,0368 
0,0090 
0,0014 
0,0001 
0,0000 


0,0138 
0,0712 
0,1678 
0,2397 
0,2311 
0,1585 
0,0792 
0,0291 
0,0078 
0,0015 
0,0002 
0,0000 
0,0000 


0,0047 
0,0305 
0,0916 
0,1700 
0,2186 
0,2061 
0,1472 
0,0811 
0,0348 
0,0016 
0,0030 
0,0006 
0,0001 
0,0000 
0,0000 
0,0000 


0,0207 
0,1004 
0,2162 
0,2716 
0,2194 
0,1181 
0,0424 
0,0098 
0,0013 
0,0001 


0,0135 
0,0725 
0,1757 
0,2522 
0,2377 
0,1536 
0,0689 
0,0212 
0,0043 
0,0005 
0,0000 


0,0057 
0,0368 
0,1088 
0,1954 
0,2367 
0,2039 
0,1281 
0,0591 
0,0199 
0,0048 
0,0008 
0,0001 
0,0000 


0,0016 
0,0126 
0,0476 
0,1110 
0,1792 
0.2123 
0,1906 
0,1319 
0,0710 
0,0298 
0,0096 
0,0024 
0,0004 
0,0001 
0,0000 
0,0000 


0,0101 
0,0605 
0,1612 
0,2508 
0,2508 
0.1672 
0,0743 
0,0212 
0,0035 
0,0003 


0,0060 
0,0403 
0,1209 
0,2150 
0,2508 
0,2007 
0,1115 
0,0425 
0,0106 
0,0016 
0,0001 


0,0022 
0,0174 
0,0639 
0,1419 
0,2128 
0,2270 
0,t766 
0,1009 
0,0420 
0,0125 
0,0025 
0,0003 
0,0000 


0,0005 
0,0047 
0,0219 
0,0634 
0,1268 
0,1859 
0,2066 
0,1771 
0,1181 
0,0612 
0,0245 
0,0074 
0,0016 
0,0003 
0,0000 
0,0000 


0,0046 
0,0339 
Oto 
0,2119 
0,2600 
0,2128 
0,1160 
0,0407 
0,0083 
0,0008 


0,0025 
0,0207 
0,0763 
0,1665 
0,2384 
0,2340 
0,1596 
0,0746 
0,0229 
0,0042 
0,0003 


0,0008 
0,0075 
0,0339 
0,0923 
0.1700 
0,2225 
0.2124 
0,1489 
0,0762 


0,0020 
0,0176 
0,0703 
0,1641 
0,2461 
0,2461 
0,1641 
0,0703 
0,0176 
0,0020 


0,0010 
0,0098 
0,0439 
0.1172 
0,2051 
0,2461 
0,2051 
0,1172 
0,0439 
0,0098 
0,0010 


0,0002 
0,0029 
0,0161 
0,0537 
0,1208 
0,1934 
0,2256 
0,1934 
0,1208 
0,0537 
0,0161 
0,0029 
0,0002 


0,0000 
0,0005 
0,0032 
0,0139 
0,0417 
0,0916 
0,1527 
0,1964 
0,1964 
0,1527 
0,0916 
0,0417 
0,0139 
0,0032 
0,0005 
0,0000 
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Tabela 5 Probabilidades Binomiais (continuação) 


x 


b 


0,10 


0,15 


0,20 


0,25 


0,30 


0,35 


0,40 


0,45 


0,50 


20 


SInav Ш@ о оч оссллрю— о 


© со ху ос ол ик w ко сою © ч ол оу мю о 


M 
o 


0,1501 
0,3002 
0,2835 
0,1680 
0,0700 
0,0218 
0,0052 
0,0010 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,1216 
0,2702 
0,2852 
0,1901 
0,0898 
0,0319 
0,0089 
0,0020 
0,0004 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0536 
0,1704 
0,2556 
0,2406 
0,1592 
0,0787 
0,0301 
0,0091 
0,0022 
0,0004 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0388 
0,1368 
0,2293 
0,2428 
0,1821 
0,1028 
0,0454 
0,0160 
0,0046 
0,0011 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0180 
0,0811 
0,1723 
0,2297 
0,2153 
0,1507 
0,0816 
0,0350 
0,0120 
0,0033 
0,0008 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0115 
0,0576 
0,1369 
0,2054 
0,2182 
0,1746 
0,1091 
0,0545 
0,0222 
0,0074 
0,0020 
0,0005 
0,0001 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0056 
0,0338 
0,0958 
0,1704 
0,2130 
0,1988 
0,1436 
0,0820 
0,0376 
0,0139 
0,0042 
0,0010 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0032 
0,0211 
0,0669 
0,1339 
0,1897 
0,2023 
0,1686 
0,1124 
0,0609 
0,0271 
0,0099 
0,0030 
0,0008 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0016 
0,0126 
0,0458 
0,1046 
0,1681 
0,2017 
0,1873 
0,1376 
0,0811 
0,0386 
0,0149 
0,0046 
0,0012 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0008 
0,0068 
0,0278 
0,0716 
0,1304 
0,1789 
0,1916 
0,1643 
0,1144 
0,0654 
0,0308 
0,0120 
0,0039 
0,0010 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0004 
0,0042 
0,0190 
0,0547 
0,1104 
0,1664 
0,1941 
0,1792 
0,1327 
0,0794 
0,0385 
0,0151 
0,0047 
0,0012 
0,0002 
0,0000 
0,0000 
0,0000 
0,0000 


0,0002 
0,0020 
0,0100 
0,0323 
0,0738 
0,1272 
0,1712 
0,1844 
0,1614 
0,1158 
0,0686 
0,0336 
0,0136 
0,0045 
0,0012 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0001 
0,0012 
0,0069 
0,0246 
0,0614 
0,1146 
0,1655 
0,1892 
0,1734 
0,1284 
0,0771 
0,0374 
0,0145 
0,0045 
0,0011 
0,0002 
0,0000 
0,0000 
0,0000 


0,0000 
0,0005 
0,0031 
0,0123 
0,0350 
0,0746 
0,1244 
0,1659 
0,1797 
0,1597 
0,1171 
0,0710 
0,0355 
0,0146 
0,0049 
0,0013 
0,0003 
0,0000 
0,0000 
0,0000 
0,0000 


0,0000 
0,0003 
0,0022 
0,0095 
0,0291 
0,0666 
0,1181 
0,1657 
0,1864 
0,1694 
0,1248 
0,0742 
0,0354 
0,0134 
0,0039 
0,0009 
0,0001 
0,0000 
0,0000 


0,0000 
0,0001 
0,0008 
0,0040 
0,0139 
0,0365 
0,0746 
0,1221 
0,1623 
0,1771 
0,1593 
0,1185 
0,0727 
0,0366 
0,0150 
0,0049 
0,0013 
0,0002 
0,0000 
0,0000 
0,0000 


0,0000 
0,0001 
0,0006 
0,0031 
0,0117 
0,0327 
0,0708 
0,1214 
0,1669 
0,1855 
0,1669 
0,1214 
0,0708 
0,0327 
0,0117 
0,0031 
0,0006 
0,0001 
0,0000 


0,0000 
0,0000 
0,0002 
0,001 I 
0,0046 
0,0148 
0,0370 
0,0739 
0,1201 
0,1602 
0,1762 
0,1602 
0,1201 
0,0739 
0,0370 
0,0148 
0,0046 
0,001 I 
0,0002 
0,0000 
0,0000 
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Tabela 6 Valores de e! 


u eu u eu u eu 
0,00 1,0000 2,00 0,1353 4,00 0,0183 
0,05 0,9512 2,05 0,1287 4,05 0,0174 
0,10 0,9048 2,10 0,1225 4,10 0,0166 
0,15 0,8607 2,15 0,1165 4,15 0,0158 
0,20 0,8187 2,20 0,1108 420 0,0150 
0,25 0,7788 2,25 0,1054 4,25 0,0143 
0,30 0,7408 2,30 0,1003 430 0,0136 
0,35 0,7047 2,35 0,0954 435 0,0129 
0,40 0,6703 2,40 0,0907 440 0,0123 
0,45 0,6376 2,45 0,0863 4,45 00117 
0,50 0,6065 2,50 0,0821 4,50 0,0111 
0,55 0,5769 2,55 0,0781 4,55 0,0106 
0,60 0,5488 2,60 0,0743 4,60 0,0101 
0,65 0,5220 2,65 0,0707 4,65 0,0096 
0,70 0,4966 2,70 0,0672 4,70 0,0091 
0,75 0,4724 2,75 0,0639 4,75 0,0087 
0,80 0,4493 2,80 0,0608 4,80 0,0082 
0,85 0,4274 2,85 0,0578 485 0,0078 
0,90 0,4066 2,90 0,0550 490 0,0074 
0,95 0,3867 2,95 0,0523 495 0,0071 
,00 0,3679 3,00 0,0498 5,00 0,0067 
‚05 0,3499 3,05 0,0474 6,00 0,0025 
10 0,3329 3,10 0,0450 7.00 0,0009 
15 0,3166 3,15 0,0429 8,00 0,000335 
20 0,3012 320 0,0408 9,00 0,000123 
10,00 0,000045 
‚25 0,2865 3,25 0,0388 
30 0,2725 3,30 0,0369 
‚35 0,2592 3,35 0,0351 
,40 0,2466 3,40 0,0334 
45 0,2346 3,45 0,0317 
,50 0,2231 3,50 0,0302 
‚55 0,2122 3,55 0,0287 
1,60 0,2019 3,60 0,0273 
‚65 0,1920 3,65 0,0260 
‚70 0,1827 3,70 0,0247 
‚75 0,1738 3,75 0,0235 
‚80 0,1653 3,80 0,0224 
‚85 0,1572 3,85 0,0213 
,90 0,1496 3,90 0,0202 
‚95 0,1423 3,95 0,0193 
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Tabela 7 Probabilidades de Poisson 


Os registros na tabela fornecem a probabilidade de x ocorréncias para um processo de Poisson com uma 
média д, Por exemplo, quando д. = 2,5, a probabilidade de quatro ocorrências é 0,1336, 


m 
0,1 0,2 03 0,4 0,5 06 0,7 0,8 0,9 1,0 


0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 0,3679 
0,0905 0,1637 0,2222 0,2681 0,3033 0,3293 0,3476 0,3595 0,3659 0.3679 
0,0045 0,0164 0,0333 0,0536 0,0758 0,0988 0,1217 0,1438 0,1647 0,1839 
0,0002 0,0011 0,0033 0,0072 0,0126 0,0198 0,0284 0,0383 0,0494 0,0613 
0,0000 0,0001 00002 0,0007 0,0016 0,0030 0,0050 0,0077 0,0111 0,0153 


0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0007 0,0012 0,0020 0,0031 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 


Mot һом – о |х 


Hu 
Ll 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 


0,3329 0,3012 0,2725 0,2466 0,2231 0,2019 0,1827 0,1653 0,1496 0,1353 
0,3662 0,3614 0,3543 0,3452 0,3347 0,3230 0,3106 0,2975 0,2842 0,2707 
0,2014 0,2169 0,2303 0,2417 0,2510 0,2584 0,2640 0,2678 0,2700 0,2707 
0,0738 0,0867 0,0998 0,1128 0,1255 0,1378 0,1496 0,1607 0,1710 0,1804 
0,0203 0,0260 0,0324 0,0395 0,0471 0,0551 0,0636 0,0723 0,0812 0,0902 


0,0045 0,0062 0,0084 00111 00141 0,0176 0,0216 0,0260 0,0309 0,0361 
0,0008 0,0012 0,0018 0,0026 0,0035 0,0047 0,0061 0,0078 0,0098 0,0120 
0,0001 0,0002 0,0003 0,0005 0,0008 0,0011 0,0015 0,0020 0,0027 0,0034 
0,0000 0,0000 0,0001 0,0001 0,000! 0,0002 0,0003 0,0005 0,0006 0,0009 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 


о со 400 awun о |х 


Г 
21 2,2 23 2,4 2,5 2,6 2,7 2,8 29 3,0 


0,1225 0,1108 0,1003 0,0907 0,0821 0,0743 0,0672 0,0608 0,0550 0,0498 
0,2572 0,2438 0,2306 0,2177 0,2052 0,1931 0,1815 0,1703 0,1596 0,1494 
0,2700 0,2681 0,2652 0,2613 0,2565 0,2510 0,2450 0,2384 0,2314 0,2240 
0,1890 0,1966 0,2033 0,2090 0,2138 0,2176 0,2205 0,2225 0,2237 0,2240 
0,0992 0,1082 0,1169 0,1254 0,1336 0,1414 0,1488 0,1557 0,1622 0,1680 


0,0417 0,0476 0,0538 0,0602 0,0668 0,0735 0,0804 0,0872 0,0940 0,1008 
0,0146 0,0174 0,0206 0,0241 0,0278 0,0319 0,0362 0,0407 0,0455 0,0504 
0,0044 0,0055 0,0068 0,0083 0,0099 0,0118 0,0139 0,0163 0,0188 0,0216 
0,0011 0,0015 0,0019 0,0025 0,0031 0,0038 0,0047 0,0057 0,0068 0,0081 
0,0003 0,0004 0,0005 0,0007 0,0009. 0,001! 0,0014 0,0018 0,0022 0,0027 


оо 40 0 ком – о |х 


© 


0.0001 0,0001 0,0001 0,0002 0,0002 0,0003 0,0004 0,0005 0,0006 0,0008 
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 0,0002 
0,0000 0,0000 0,0000 0,0000 0,0000 00000 0,0000 0,0000 0,0000 0,0001 


ю = 
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Tabela 7 Probabilidades de Poisson (continuacáo) 


x 


cx 3 


3,1 


3,2 


3,3 


3,4 


3,5 


3,6 


шо O0 0 шок – о 


UNIS 


14 


0,0450 
0,1397 
0,2165 
0,2237 
0,1734 


0,1075 
0,0555 
0,0246 
0,0095 
0,0033 


0,0010 
0,0003 
0,0001 
0,0000 
0,0000 


0,0408 
0,1304 
0,2087 
0,2226 
0,178 


0,1140 
0,0608 
0,0278 
0,011 
0,0040 


0,0013 
0,0004 
0,000 
0,0000 
0,0000 


0,0369 
0,1217 
0,2008 
0,2209 
0,1823 


0,1203 
0,0662 
0,0312 
0,0129 
0,0047 


0,0016 
0,0005 
0,0001 
0,0000 
0,0000 


0,0344 
0,1135 
0,1929 
0,2186 
0,1858 


0,1264 
0,0716 
0,0348 
0,0148 
0,0056 


0,0019 
0,0006 
0,0002 
0,0000 
0,0000 


0,0302 
0,1057 
0,1850 
0,2158 
0,1888 


0,1322 
0,0771 
0,0385 
0,0169 
0,0066 


0,0023 
0,0007 
0,0002 
0,0001 
0,0000 


0,0273 
0,0984 
0,1771 
0,2125 
0,1912 


0,1377 
0,0826 


0,0425 


0,0191 
0,0076 


0,0028 
0,0009 
0,0003 
0,0001 
0,0000 


3,7 


0,0247 
0,0915 
0,1692 
0,2087 
0,1931 


0,1429 
0,0881 
0,0466 
0,0215 
0,0089 


0,0033 
0,001 I 
0,0003 
0,0001 
0,0000 


3,8 


0,0224 
0,0850 
0,1615 
0,2046 
0,1944 


0,1477 
0,0936 
0,0508 
0,0241 
0,0102 


0,0039 
0,0013 
0,0004 
0,0001 
0,0000 


[ 


39 


0,0202 
0,0789 
0,1539 
0,2001 
0,1951 


0,1522 
0,0989 
0,0551 
0,0269 
0,0116 


0,0045 
0,0016 
0,0005 
0,0002 
0,0000 


40 


0,0183 
0,0733 
0,1465 
0,1954 
0,1954 


0,1563 
0,1042 
0,0595 
0,0298 
0,0132 


0,0053 
0,0019 
0,0006 
0,0002 
0,0001 


41 


42 


43 


44 


4,5 


0,0166 
0,0679 
0,1393 
0,1904 
0,1951 


0,1600 
0,1093 
0,0640 
0,0328 
0,0150 


0,0061 
0,0023 
0,0008 
0,0002 
0,0001 
0,0000 


0,0150 
0,0630 
0,1323 
0,1852 
0,1944 


0,1633 
0,1143 
0,0686 
0,0360 
0,0168 


0,0071 
0,0027 
0,0009 
0,0003 
0,0001 
0,0000 


0,0136 
0,0583 
0,1254 
0,1798 
0,1933 


0,1662 
0,1191 
0,0732 
0,0393 
0,0188 


0,0081 
0,0032 
0,0011 
0,0004 
0,0001 
0,0000 


0,0123 
0,0540 
0,1188 
0,1743 
0,1917 


0,1687 
0,1237 
0,0778 
0,0428 
0,0209 


0,0092 
0,0037 
0,0014 
0,0005 
0,0001 
0,0000 


0,0111 


‚0,0500 


0,1125 
0,1687 
0,1898 


0,1708 
0,1281 
0,0824 
0,0463 
0,0232 


0,0104 
0,0043 
0,0016 
0,0006 
0,0002 
0,0001 


46 


0,0101 
0,0462 
0,1063 
0,1631 
0,1875 


0,1725 
0,1323 
0,0869 
0,0500 
0,0255 


0,0118 
0,0049 
0,0019 
0,0007 
0.0002 
0,0001 


47 


48 


49 


50 


0,0091 
0,0427 
0,1005 
0,1574 
0,1849 


0,1738 
0,1362 
0,0914 
0,0537 
0,0280 


0,0132 
0,0056 
0,0022 
0,0008 
0.0003 
0,0001 


0,0082 
0,0395 
0,0948 
0,1517 
0,1820 


0,1747 
0,1398 
0,0959 
0,0575 
0,0307 


0,0147 
0,0064 
0,0026 
0,0009 
0,0003 
0,0001 


0,0074 
0,0365 
0,0894 
0,1460 
0,1789 


0,1753 
0,1432 
0,1002 
0,0614 
0,0334 


0,0164 
0,0073 
0,0030 
0,0011 
0,0004 
0,0001 


0,0067 
0,0337 
0,0842 
0,1404 
0,1755 


0,1755 
0,1462 
0,1044 
0,0653 
0,0363 


0,0181 
0,0082 
0,0034 
0,0013 
0,0005 
0,0002 
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Tabela 7 Probabilidades de Poisson (continuação) 


и 


5,1 


52 


53 


54 


5,5 5,6 


5,7 


5,8 


5,9 


6,0 


о 0 ы осол шом — O |х 


ELNTO 


че а 


0,0061 
0,0311 
0,0793 
0,1348 
0,1719 


0,1753 
0,1490 
0,1086 
0,0692 
0,0392 


0,0200 
0,0093 
0,0039 
0,0015 
0,0006 


0,0002 
0,0001 
0,0000 


0,0055 
0,0287 
0,0746 
0,1293 
0,1681 


0,1748 
0,1515 
0,1125 
0,0731 
0,0423 


0,0220 
0,0104 
0,0045 
0,0018 
0,0007 


0,0002 
0,000! 
0,0000 


0,0050 
0,0265 
0,070 
0,1239 
0,164 


0,1740 
0,1537 
0.1163 
0,077 
0,0454 


0,024 
00116 
0,005 
0,002 
0,0008 


0,0003 
0,000 
0,0000 


0,0045 
0,0244 
0,0659 
0,1185 
0,1600 


0,1728 
0,1555 
0,1200 
0,0810 
0,0486 


0,0262 
0,0129 
0,0058 
0,0024 
0,0009 


0,0003 
0,0001 
0,0000 


0,0041 0,0037 
0,0225 0,0207 
0,0618 0,0580 
0,1133 0,1082 
0,1558 0,1515 


0,1714 0,1697 
0,1571 0,1587 
0,1234 0,1267 
0,0849 0,0887 
0,0519 0,0552 


0,0285 0,0309 
0,0143 0,0157 
0,0065 0,0073 
0,0028 0,0032 
0,0011 0,0013 


0,0004 0,0005 
0,0001 0,0002 
0,0000 0,0001 


0,0033 
0,0191 
0,0544 
0,1033 
0,1472 


0,1678 
0,1594 
0,1298 
0,0925 
0,0586 


0,0334 
0,0173 
0,0082 
0,0036 
0,0015 


0,0006 
0,0002 
0,0001 


0,0030 
0,0176 
0,0509 


0,0985 - 


0,1428 


0,1656 
0,1601 
0,1326 
0,0962 
0,0620 


0,0359 
0,0190 
0,0092 
0,004 
0,0017 


0,0007 
0,0002 
0,000 


0,0027 
0,0162 
0,0477 
0,0938 
0,1383 


0,1632 
0,1605 
0,1353 
0,0998 
0,0654 


0,0386 
0,0207 
0,0102 
0,0046 
0,0019 


0,0008 
0,0003 
0,0001 


0,0025 
0,0149 
0,0446 
0,0892 
0,1339 


0,1606 
0.1606 
0,1377 
0,1033 
0,0688 


0,0413 
0,0225 
0,0113 
0,0052 
0,0022 


0,0009 
0,0003 
0,0001 


x 


M 


6,1 


6,2 


6,3 


64 


6,5 6,6 


6,7 


6,8 


6,9 


7,0 


ком – о 


кою Ш б vonon 


оо У о ол 


0,0022 
0,0137 
0,0417 
0,0848 
0,1294 


0,1579 
0,1605 
0,1399 
0,1066 
0,0723 


0,0441 
0,0245 
0,0124 
0,0058 
0,0025 


0,0010 
0,0004 
0,0001 
0,0000 
0,0000 


0,0020 
0,0126 
0,0390 
0,0806 
0,1249 


0,1549 


0,1601. 


0,1418 
0,1099 
0,0757 


0,0469 
0,0265 
0,0137 
0,0065 
0,0029 


0,0012 
0,0005 
0,0002 
0,0001 
0,0000 


0,0018 
0,0116 
0,0364 
0,0765 
0,1205 


0,1519 
0,1595 
0,1435 
0,1130 
0,0721 


0,0498 
0,0285 
0,0150 
0,0073 
0,0033 


0,0014 
0,0005 
0,0002 
0.0001 
0,0000 


0,0017 
0,0106 
0,0340 
0,0726 
0,1162 


0,1487 
0,1586 
0,1450 
0,1160 
0,0825 


0,0528 
0,0307 
0,0164 
0,0081 
0,0037 


0,0016 
0,0006 
0,0002 
0,0001 
0,0000 


0,0015 0,0014 
0,0098 0,0090 
0,0318 0,0296 
0,0688 0,0652 
0,1118 0,1076 


0,1454 0,1420 
0,1575 0,1562 
0,1462 0,1472 
0,1188 0,1215 
0,0858 0,0891 


0,0558 0,0588 
0,0330 0,0353 
0,0179 0,0194 
0,0089 0,0098 
0,0041 0,0046 


0,0018 0,0020 
0,0007 0,0008 
0,0003 0,0003 
0,0001 0,0001 
0,0000 0,0000 


0,0012 
0,0082 
0,0276 
0,0617 
0,1034 


0,1385 
0,1546 
0,1480 
0,1240 
0,0923 


0,0618 
0,0377 
0,0210 
0,0108 
0,0052 


0,0023 
0,0010 
0,0004 
0,0001 
0,0000 


0,001 
0,0076 
0,0258 
0,0584 
0,0992 


0,1349 
0,1529 
0,1486 
0,1263 
0,0954 


0,0649 
0,0401 
0,0227 
0,0119 
0,0058 


0,0026 
0,0011 
0,0004 
0,0002 
0,0001 


0,0010 
0,0070 
0,0240 
0,0552 
0,0952 


0,1314 
0,1511 
0,1489 
0,1284 
0,0985 


0,0679 
0,0426 
0,0245 
0,0130 
0,0064 


0,0029 
0,0013 
0,0005 
0,0002 
0,0001 


0,0009 
0,0064 
0,0223 
0,0521 
0,0912 


0,1277 
0,1490 
0,1490 
0,1304 
0,1014 


0,0710 
0,0452 
0,0264 
0,0142 
0,0071 


0,0033 
0,0014 
0,0006 
0,0002 
0,0001 
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Tabela 7 Probabilidades de Poisson (continuação) 


ш 


7,1 


7,2 


7,3 


7,4 


7,5 


76 


77 


78 


79 


8,0 


d» oU) кю — Ф |х 


EDBRISB юмо 


M 
— © хо 0 мо tan 


кю 


0,0008 
0,0059 
0,0208 
0,0492 
0,0874 


0,1241 
0,1468 
0,1489 
0,1321 
0,1042 


0,0740 
0,0478 
0,0283 
0,0154 
0,0078 


0,0037 
0,0016 
0,0007 
0,0003 
0,0001 


0,0000 
0,0000 


0,0007 
0,0054 
0,0194 
0,0464 
0,0836 


0,1204 
0,1445 
0,1486 
0,1337 
0,1070 


0,0770 
0,0504 
0,0303 
0,0168 
0,0086 


0,0041 
0,0019 
0,0008 
0,0003 
0,0001 


0,0000 
0,0000 


0,0007 
0,0049 
0,0180 
0,0438 
0,0799 


0,1167 
0,1420 
0,148 
0,135 
0,1096 


0,0800 
0,053 
0,0323 
0,018 
0,0095 


0,0046 
0,002 
0,0009 
0,0004 
0,000 


0,000 
0,0000 


0,0006 
0,0045 
0,0167 
0,0413 
0,0764 


0.1130 
0,1394 
0,1474 
0,1363 
0,1121 


0,0829 
0,0558 
0,0344 
0,0196 
0,0104 


0,0051 
0,0024 
0,0010 
0,0004 
0,0002 


0,0001 
0,0000 


0,0006 
0,0041 
0,0156 
0,0389 
0,0729 


0,1094 
0,1367 
0,1465 
0,1373 
0,1144 


0,0858 
0,0585 
0,0366 
0,0211 
0,0113 


0,0057 
0,0026 
0,0012 
0,0005 
0,0002 


0,0001 
0,0000 


0,0005 
0,0038 
0,0145 
0,0366 
0,0696 


0,1057 
0,1339 
0,1454 
0.1382 
0.1167 


0,0887 
0,0613 
0,0388 
0,0227 
0,0123 


0,0062 
0,0030 
0,0013 
0,0006 
0,0002 


0,0001 
0,0000 


0,0005 
0,0035 
0,0134 
0,0345 
0,0663 


0,1021 
0,1311 
0,1442 
0,1388 
0,1187 


0,0914 
0,0640 
0,0411 
0,0243 
0,0134 


0,0069 
0,0033 
0,0015 
0,0006 
0,0003 


0,0001 
0,0000 


0,0004 
0,0032 
0,0125 
0,0324 
0,0632 


0,0986 
0,1282 
0,1428 
0,1392 
0,1207 


0,0941 
0,0667 
0,0434 
0,0260 
0,0145 


0,0075 
0,0037 
0,0017 
0,0007 
0,0003 


0,0001 
0,0000 


0,0004 
0,0029 
0,0116 
0,0305 
0,0602 


0,0951 
0,1252 
0.1413 
0,1395 
0,1224 


0,0967 
0,0695 
0,0457 
0,0278 
0,0157 


0,0083 
0,004 
0,0019 
0,0008 
0,0003 


0,000 
0,000 


0,0003 
0,0027 
0,0107 
0,0286 
0,0573 


0,0916 
0,1221 
0.1396 
0,1396 
0,1241 


0,0993 
0,0722 
0,0481 
0,0296 
0,0169 


0,0090 
0,0045 
0,002 
0,0009 
0,0004 


0,0002 
0,000 


х 


1] 


8,1 


8,2 


8,3 


8,4 


8,5 


8,6 


8,7 


8,8 


8,9 


9,0 


Awn- о 


DO Oo (л 


шочо ол Awn- 


MOM PS 
о-о 


0,0003 
0,0025 
0,0100 
0,0269 
0,0544 


0,0882 
0,1191 
0,1378 
0,1395 
0,1256 


0,1017 
0,0749 
0,0505 
0,0315 
0,0182 


0,0098 
0,0050 
0,0024 
0,0011 
0,0005 


0,0002 
0,0001 
0,0000 


0,0003 
0,0023 
0,0092 
0,0252 
0,0517 


0,0849 
0,1160 
0,1358 
0,1392 
0,1269 


0,1040 
0,0776 
0,0530 
0,0334 
0,0196 


0,0107 
0,0055 
0,0026 
0,0012 
0,0005 


0,0002 
0,0001 
0,0000 


0,0002 
0,0021 
0,0086 
0,0237 
0,0491 


0,0816 
0.1128 
0,1338 
0,1388 
0,1280 


0,1063 
0,0802 
0,0555 
0,0354 
0,0210 


0,0116 
0,0060 
0,0029 
0,0014 
0,0006 


0,0002 
0,0001 
0,0000 


0,0002 
0,0019 
0,0079 
0,0222 
0,0466 


0,0784 
0,1097 
0,1317 
0,1382 
0,1290 


0,1084 
0,0828 
0,0579 
0,0374 
0,0225 


0,0126 
0,0066 
0,0033 
0,0015 
0,0007 


0,0003 
0,0001 
0,0000 


0,0002 
0,0017 
0,0074 
0,0208 
0,0443 


0,0752 
0,1066 
0,1294 
0,1375 
0,1299 


0,1104 
0,0853 
0,0604 
0,0395 
0,0240 


0,0136 
0,0072 
0,0036 
0,0017 
0,0008 


0,0003 
0,0001 
0,0001 


0,0002 
0,0016 
0,0068 
0,0195 
0,0420 


0,0722 
0,1034 
0,1271 
0,1366 
0,1306 


0,1123 
0,0878 
0,0629 
0,0416 
0,0256 


0,0147 
0,0079 
0,0040 
0,0019 
0,0009 


0,0004 
0,0002 
0,0001 


0,0002 
0,0014 
0,0063 
0,0183 
0,0398 


0,0692 
0,1003 
0,1247 
0,1356 
0,1311 


0.1140 
0,0902 
0,0654 
0,0438 
0,0272 


0,0158 
0,0086 
0,0044 
0,0021 
0,0010 


0,0004 
0,0002 
0,0001 


0,0002 
0,0013 
0,0058 
0,0171 
0,0377 


0,0663 
0,0972 
0,1222 
0,1344 
0,1315 


0,1157 
0,0925 
0,0679 
0,0459 
0,0289 


0,0169 
0,0093 
0,0048 
0,0024 
0,0011 


0,0005 
0,0002 
0,0001 


0,000 
0,0012 
0,0054 
0,0160 
0,0357 


0,0635 
0,0941 
0,1197 
0,1332 
0,1317 


0.1172 
0,0948 
0,0703 
0,0481 
0,0306 


0,0182 
0,0101 
0,0053 
0,0026 
0,0012 


0,0005 
0,0002 
0,0001 


0,000 
0,001 
0,0050 
0,0150 
0,0337 


0,0607 
6,0911 
0,1171 
0,1318 
0,1318 


0,1186 
0,0970 
0,0728 
0,0504 
0,0324 


0,1094 
0,0109 
0,0058 
0,0029 
0,0014 


0,0006 
0,0003 
0,0001 
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Tabela 7 Probabilidades de Poisson (continuacáo) 


E Lr NE ENIM 


91 


9,2 


93 


94 


9,5 


9,6 


97 


98 


9,9 


10 


DO O0 һомо |х 


ce uou ENO 


no 


MON MOM ON 
ою — © 


0,0001 
0,0010 
0,0046 
0,0140 
0,0319 


0,0581 
0,0881 
0,1145 
0,1302 
0,1317 


0,1198 
0,0991 
0,0752 
0,0526 
0,0342 


0,0208 
0,0118 
0,0063 
0,0032 
0,0015 


0,0007 
0,0003 
0,0001 
0,0000 
0,0000 


0,0001 
0,0009 
0,0043 
0,0131 
0,0302 


0,0555 
0,0851 
0,1118 
0,1286 
0,1315 


0,1210 
0,1012 
0,0776 
0,0549 
0,0361 


0,0221 
0,0127 
0,0069 
0,0035 
0,0017 


0,0008 
0,0003 
0,0001 
0,000! 
0,0000 


0,0001 
0,0009 
0,0040 
0,0123 
0,0285 


0,0530 
0,0822 
0,1091 
0,1269 
0,131! 


0,1219 
0,1031 
0,0799 
0,0572 
0,0380 


0,0235 
0,0137 
0,0075 
0,0039 
0,0019 


0,0009 
0,0004 
0,0002 
0,0001 
0,0000 


0,0001 
0,0008 
0,0037 
0,0115 
0,0269 


0,0506 
0,0793 
0,1064 
0,1251 
0,1306 


0,1228 
0,1049 
0,0822 
0,0594 
0,0399 


0,0250 
0,0147 
0,0081 
0,0042 
0,0021 


0,0010 
0,0004 
0,0002 
0,0001 
0,0000 


0,0001 
0,0007 
0,0034 
0,0107 
0,0254 


0,0483 
0,0764 
0,1037 
0,1232 
0,1300 


0,1235 
0,1067 
0,0844 
0,0617 
0,0419 


0,0265 
0,0157 
0,0088 
0,0046 
0,0023 


0,0011 
0,0005 
0,0002 
0,0001 
0,0000 


0,0001 
0;0007 
0,0031 
0,0100 
0,0240 


0,0460 
0,0736 
0,1010 
0,1212 
0,1293 


0,1241 
0,1083 
0,0866 
0,0640 
0,0439 


0,0281 
0,0168 
0,0095 
0,0051 
0,0026 


0,0012 
0,0006 
0,0002 
0,0001 
0,0000 


0,0001 
0,0006 
0,0029 
0,0093 
0,0226 


0,0439 
0,0709 
0,0982 
0,1191 
0,1284 


0,1245 
0,1098 
0,0888 
0,0662 
0,0459 


0,0297 
0,0180 
0,0103 
0,0055 
0,0028 


0,0014 
0,0006 
0,0003 
0,0001 
0,0000 


0,0001 
0,0005 
0,0027 
0,0087 
0,0213 


0,0418 
0,0682 
0,0955 
0,1170 
0,1274 


0,1249 


9,11 


0,0908 
0,0685 
0,0479 


0,03 


0,0192 


0,01 


0,0060 
0,0031 


0,00 


2 


3 


5 


0,0007 
0,0003 
0,0001 
0,0001 


0,0001 
0,0005 


0,0025 - 


0,0081 
0,0201 


0,0398 
0,0656 
0,0928 
0,1148 
0,1263 


0,1250 
0,1125 
0,0928 
0,0707 
0,0500 


0,0330 
0,0204 
0,0119 
0,0065 
0,0034 


0,0017 
0,0008 
0,0004 
0,0002 
0,0001 


0,0000 
0,0005 
0,0023 
0,0076 
0,0189 


0,0378 
0,0631 
0,0901 
0,1126 
0,1251 


0,1251 
0,1137 
0,0948 
0,0729 
0,0221 


0,0347 
0,0217 
0,0128 
0,0071 
0,0037 


0,0019 
0,0009 
0,0004 
0,0002 
0,0001 


n 


12 


13 


14 


15 


16 


17 


18 


19 


20 


о чохол 4 0 NM о |х 


о 


кою-о 


0,0000 
0,0002 
0,0010 
0,0037 
0,0102 


0,0224 
0,0411 
0,0646 
0,0888 
0,1085 


0,1194 
0,1194 
0,1094 
0,0926 
0,0728 


0,0000 
0,0001 
0,0004 
0,0018 
0,0053 


0,0127 
0,0255 
0,0437 
0,0655 
0,0874 


0,1048 
0,1144 
0,1144 
0,1056 
0,0905 


0,0000 
0,0000 
0,0002 
0,0008 
0,0027 


0,0070 
0,0152 
0,0281 
0,0457 
0,0661 


0,0859 
0,1015 
0,1099 
0,1099 
0.1021 


0,0000 
0,0000 
0,0001 
0,0004 
0,0013 


0,0037 
0,0087 
0,0174 
0,0304 
0,0473 


0,0663 
0,0844 
0,0984 
0,1060 
0,1060 


0,0000 
0,0000 
0,0000 
0,0002 
0,0006 


0,0019 
0,0048 
0,0104 
0,0194 
0,0324 


0,0486 
0,0663 
0,0829 
0,0956 
0,1024 


0,0000 
0,0000 
0,0000 
0,0001 
0,0003 


0,0010 
0,0026 
0,0060 
0,0120 
0,0213 


0,0341 
0,0496 
0,0661 
0,0814 
0,0930 


0,0000 
0,0000 
0,0000 
0,0000 
0,0001 


0,0005 
0,0014 
0,0034 
0,0072 
0,0135 


0,0230 
0,0355 
0,0504 
0,0658 
0,0800 


0,0000 
0,0000 
0,0000 
0,0000 
0,0001 


0,0002 
0,0007 
0,0018 
0,0042 
0,0083 


0,0150 
0,0245 
0,0368 
0,0509 
0,0655 


0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0001 
0,0004 
0,0010 
0,0024 
0,0050 


0,0095 
0,0164 
0,0259 
0,0378 
0,0514 


0,0000 
0,0000 
0,0000 
0,0000 
0,0000 


0,0001 
0,0002 
0,0005 
0,0013 
0,0029 


0,0058 
0,0106 
0,0176 
0,0271 
0,0387 


Apéndice В Tabelas 


Tabela 7 Probabilidades de Poisson (continuação) 


m 
x 1 12 13 14 15 16 17 18 19 20 
15 0,0534 0,0724 0,0885 0,0989 0,1024 0,0992 0,0906 0,0786 0,0650 0,0516 
16 0,0367 0,0543 0,0719 0,0866 0,0960 0,0992 0,0963 0,0884 0,0772 0,0646 
17 0,0237 0,0383 0,0550 0,0713 0.0847 0,0934 0,0963 0,0936 0,0863 0,0760 
18 0,0145 0,0256 0,0397 0,0554 0,0706 0,0830 0,0909 0,0936 0,0911 0,0844 
19 0,0084 0,0161 0,0272 0,0409 0,0557 0,0699 0,0814 0,0887 0,0911 0,0888 
20 0,0046 0,0097 0,0177 0,0286 0,0418 0,0559 0,0692 0,0798 0,0866 0,0888 
21 0,0024 00055 0,0109 0,0191 00299 0,0426 0,0560 0,0684 0,0783 0,0846 
22 0,0012 0,0030 0,0065 0,0121 0,0204 0,0310 0,0433 0,0560 0,0676 0,0769 
23 0,0006 0,0016 0,0037 0,0074 0.0133 0,0216 0,0320 0,0438 0,0559 0,0669 
24 0,0003 0,0008 0,0020 0,0043 0,0083 0,0144 0,0226 0,0328 0,0442 0,0557 
25 0,0001 0,0004 0,0010 0,0024 0,0050 0,0092 0,0154 0,0237 0,0336 0,0446 
26 0,0000 0,0002 0,0005 0,0013 0,0029 0,0057 00101 0,0164 0,0246 0,0343 
27 0,0000 0,0001 0,0002 0,0007 0,0016 0,0034 0,0063 0,0109 0,0173 0,0254 
28 0,0000 0,0000 0,0001 0,0003 0,0009 0,0019 00038 0,0070 0,0117 0,0181 
29 0,0000 0,0000 0,0001 0,0002 0,0004 0,0011 0,0023 0,0044 0.0077 0,0125 
30 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013 0,0026 0,0049 0,0083 
3] 0,0000 0,0000 0,0000 00000 0,0001 0,0003 0,0007 0,0015 0,0030 0,0054 
32 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0004 0,0009 0,0018 0,0034 
33 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0005 0,0010 0,0020 
34 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0012 
35 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0007 
36 0,0000 0,0000 0,0000 0,0000 0,0000 0.0000 0,0000 0,0001 0,0002 0,0004 
37 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 
38 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 
39 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 
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APÉNDICE C 


Notação de Somatório 


Somatório 
Definição 


п 
Уде +з ++, 
qeu 


Exemplo para x, = 5, x; = 8, x4 = 14: 


3 
Ух —-x tx ytxu 
ici 

=5+8+14 
=27 

Resultado 1 

Para uma constante c: 

Emite tte 

ici 1442443 

n times 


Exemplo para c — 5, n — 10: 


10 
У;5 = 10(5) = 50 


i=1 
Exemplo para с = x: 
ELE 
i-i 


Resultado 2 


a 
Ус = ср teme, 


i=1 


п 
= + +в) = СУ) j 
ici 


(C.D 


(C.2) 


(C.3) 
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Exemplo рага x, = 5, x3 = 8, хз = 14,c = 2: 


з 
225 
ie 


3 
29x = 207) = 54 
i=l 
Resultado 3: 


SŠ (ax, + by) = айл +, (C4 
i=1 il i=t 


Exemplo рага x; —5,x; = 8, x, = 14,а = 2, у = 7, y2 = 3, y3 = 8, b = 4: 


ЕЈ 3 3 
€EQx44)-2X9x +45 
i-l i=1 i=1 

= (27) + 4(18) 
= 54 + 72 
= 126 


Somatórios Duplos 


Considere os dados seguintes envolvendo a variável җу em que i é o subscrito denotando a posição de 
linha, e j é o subscrito denotando a posição de coluna: 


Coluna 
1 2 3 
1 x, 10 xi; = 8 хз 7 6 
Linha 
2 X4 =7 хуу = 4 хз = 12 
Definição 
Уоруу = о. + х ++ Xim) + (о + xg + x) 
іл 1 
TQ tag tec E Xam) bc b Gt XO ++ xS) (C.5) 
Exemplo: 
2 3 
x Ex = Xy + Xz Xu + Xn + х Fx 
ЕП 
=10+8+6+7+4+12 
=47 
Definição 
POLITE UU (C.6) 
Exemplo: 


Apéndice C — Notacáo de Somatório 


Notacáo Simplificada 
Algumas vezes, quando um somatório se refere a todos os valores do subscrito, usamos as seguintes 
notações simplificadas: 
3x = Ex (сл) 
> $x-XXEx (C.8) 


э = Ex, (сэ) 


APÉNDICE D 


Soluções dos /Autotestes 
e Respostas dos 
Exercícios Pares 


Capítulo | 


2. 


10. 


12. 


2.9 

b.4 

с. Qualitativa: país e preço do quarto 
Quantitativa: nümero de quartos e pontuacáo 
global 

d. O país é nominal; o prego dos quartos é ordinal; 
o número dos quartos é uma razão; a pontuação 
global é um intervalo 


a. Número médio dos quartos = 808/9 = 89,78, ou 
aproximadamente 90 quartos 

b. Pontuação global = 732,1/9 = 81,3 

€. Dois dos nove estão localizados na Inglaterra; 
aproximadamente 22% 

d. Quatro dos nove têm preços de quartos iguais a 
US$; aproximadamente 44% 


a. 10 

b. Todas as marcas de minisystems manufaturados 
c, US$ 314,00 

d. US$ 314,00 


As perguntas a, c e d fornecem dados quantitativos 
As perguntas b e e fornecem dados qualitativos 


a. 1.005 

b. Qualitativos 

c. Porcentagens 

d. Aproximadamente 291 


а. Quantitativos; razáo 
b. Qualitativos; nominal 
€. Qualitativos; ordinal 
d. Quantitativos; razáo 
е. Qualitativos; nominal 


a. Todos os que visitam o Havaí 

b. Sim 

€. À primeira e a quarta perguntas fornecem dados 
quantitativos 


A segunda e a terceira perguntas fornecem dados 
qualitativos 


13. a. Quantitativos 
b. Série histórica com seis observações 
€. Os ganhos da Volkswagen 
d. Seria esperado um aumento em 2003, mas parece 
que a taxa de crescimento está se desacelerando 


14. a. Qualitativa 


16. a. Testes de sabor do produto e teste de marketing 
b. Com estudos estatísticos especialmente projeta- 
dos 


18. a. 36% 
b. 189 
€. Qualitativos 


20. a. 4396 dos gerentes eram especuladores otimistas 
(bullish) e 21% dos gerentes esperavam que setor 
da saúde ocupasse a posição de liderança na 
indústria ao longo dos 12 meses. 

b. A estimativa do rendimento médio em 12 meses é 
11,2% para a população de gerentes de investi- 
mentos. 

€. А média amostral de 2,5 anos é uma estimativa de 
quanto tempo a população de gerentes de investi- 
mento acha que será necessário para retomar o 
crescimento sustentável. 


22. a. Todos os eleitores registrados na Califórnia 
b. Os eleitores registrados contatados pelo Policy 
Institute 
c. Porque consome muito tempo e é muito custoso 
envolver a população inteira 


24. a. Correta 
b. Incorreta 
c. Correta 
d. Incorreta 
e. Incorreta 
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Capítulo 2 b. Os cinco primeiros colocados: Millionaire, Dad, 7 Habits, 
Motley, WSJ Guide 
2. a020 c. 48,33% 
b. 40 
cid. 7. 
Freqüéncia Freqüéncia 
Classe Freqüéncia Percentual Avaliacáo Frequência Percentual 
A 44 22 Excelente 19 0,38 
B 36 18 Ótimo 13 0,26 
S » » Bom ` io 020 
Total 700 1007 Médio 6 0,12 
Fraco 2 0,04 
3. а. 360° х 58/120 = 174° A administração deve estar satisfeita com estes resultados: 64% 
b. 360? x 42/120 = 126º das avaliações variaram de ótimo a excelente, e 84% das avalia- 
c. ções são boas ou melhores; comparar essas avaliações com os 


resultados anteriores mostrará se as avaliações dos clientes estão 
melhorando a qualidade das refeições. 


8. a. 
Frequência 
Posição Freqüéncia Percentual 
Arremessador (Pitcher) — A 17 0,309 
Receptor (catcher) — R 4 0,73 
Primeira base (1) 5 0,091 
Segunda base (2) 4 0,073 
Terceira base (3) 2 0,036 
4. Interbase (shortstop) 5 0,091 
Jardineiro esquerdo (E) 6 0,109 
60 Jardineiro Central (C) 5 0,091 
Jardineiro Direito (D) 7 0,127 
40 Totais 55 1,000 
b. Arremessador (pitcher) 
20 с. Terceira base (3) 
d. Jardineiro direito 
e. 16 infielders (1, 2, 3 e I) para 18 outfielders (E, C e D) 
Sim Não бет Opinião 
10. a. Os dados são ordinais; eles simplesmente fornecem classi- 
4. a. Qualitativos ficações de acordo com a qualidade. 
b. 
bo 2. 
Programa Freqüéncia ul Freqüéncia 
de TV Frequência Percentual Resposta Freqüáncia Percentual 
csi 18 36 3 2 0,03 
ER M 22 4 4 0,07 
Friends 15 30 5 12 0,20 
Raymond _6_ ` 12 6 24 0,40 
Total 50 100 7 18 0,30 
d. CSI teve a maior audiência; Friends ficou em segundo lugar. Totais 18 30 
6. a. 12. 
Freqüéncia Freqüéncia 
Livro Freqüéncia Percentual Freqüéncia Relativa 
7 Habits 10 16,66 Classe Cumulativa — Cumulativa 
Millionaire 16 26,67 519 10 0,20 
-29 24 0,48 
Motley 9 15,00 «39 41 0,82 
Dad 13 21,67 =49 48 0,96 
WSJ Guide 6 10,00 «59 50 1,00 
Outros 6 10,00 


Total ES 100,00 
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14. b/c. c 
Freqüéncia " 
Classe Freqüéncia Percentual 
60279 4 20 M 
80299 2 10 з в 
10,0а 11,9 8 40 s 
120a 13,9 3 15 ES 
14,0 а 15,9 3 15 4 
Totais 20 100 2 
15. a/b. "Em OU 5 dé cx M 
Tempo Freqüéncia Dados 
de Espera Freqüéncia Relativa 
0a4 4 020 O histograma apresenta uma leve assimetria à esquerda, 
5a9 8 0,40 mas é aproximadamente simétrico. 
10а 14 5 0,25 18. а. О menor salário: US$ 93 mil 
15a 19 2 0,10 О maior salário: US$ 178 mil 
20 a24 | 0,05 b. 
Totai 20 1,00 
cas Salário Freqüéncia Freqüéncia 
cid. "— (US$ 1.000) Freqüéncia Relativa Percentual 
requencia 
Tempo Freqüéncia Relativa 7 A ба © 0 М 008 A 
de Espera Cumulativa Cumulativa 121 а 135 Y 022 2 
=4 4 0,20 136 а 150 18 0,36 36 
=? 12 0,60 151 a 165 9 0,18 18 
<I4 17 0.85 166 a 180 3 0,06 6 
59 » N^ Total 50 1.00 100 
= B 
c. 20/50 
e. 12/20 = 0,60 d. 24% 
16. a. Renda Bruta Ajustada 20. a. 
" Freqüéncia 
Preco Freqüéncia Percentual 
30 а 39,99 7 35 
E” 40 a 49,99 5 25 
3 40 50 а 59,99 2 10 
3 30 60 а 69,99 3 15 
I. 70a 79,99 3 15 
o Total 20 100 
" c. Fletwood Mac, Harper/Johnson 
25 50 75 100 125 150 175 
Renda (em milhares de dólares) 22. > И 8 8 
O histograma apresenta uma assimetria à direita. 7102 2 5 56 8 
b. Notas de Exame 8/0 2 3 5 
90 23. Unidade de folha — 0,1 
80 6 |3 
715 5 7 
? 81348 
4 60 913 6 
$ 50 10/0 4 5 
| 1113 
É « 
30 А 24. Unidade de folha = 10 
2 116 
" 1210 2 
1310 6 7 
? 30 40 50 6 70 80 90 4 2 27 
Nota 
А atii 160 2 8 
O histograma apresenta uma assimetria à esquerda. 1710 2 3 
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28. a. 


NADANA 2$ CO GO NJ м Ov Cr Un 4 - UU CO мом — — O M GU ND — 
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ьол о 
Uno 


Ф Ф лл М 


©) ош соол — Со СОО О лш 
© о ш 


сх СОО ол сол олоо о DO 


003333344 
6679 
00022 
5679 

14 

6 

2 


b. 40 a 44 anos, com nove corredores 
є. 43 anos, com cinco pessoas 
d. 10%; participação relativamente pequena na corrida 


29. a. 


y 
1 2 Тоха! 
А 5 0 5 
х В Д 2 13 
c 2 to 12 
Total 18 12 30 
y 
1 2 Total 
А 100,0 0,0 100,0 
х В 84,6 15,4 100,0 
c 16,7 833 100,0 
y 
i 2 
A 278 0,0 
x B 61,1 16,7 
c ПЕ 83,3 
Total 100,0 100,0 


d. Os valores de A estão sempre em y = 1 


Os valores de B estáo com maior freqüéncia em y — 1 
Os valores de C estáo com maior freqüéncia em y — 2 


30. a. 
56 
„* 
40 » 
E 
24 .. 
e P" . 
> 8 . . 
. 
8 . M 
«© э + 
24 . . . 
-40 ГИГ ] 
-40 -30 -20 -I0 O 10 20 30 40 


x 


b. Há uma relação negativa entre x e y; y decresce à medida 


que x aumenta. 


32. a. 
Renda Familiar (US$1.000) 
Menos 250- 500 750 |00ou 
Nível Educacional 25 499 749 999 mas Тош 
Sem Diploma de Ensino Médio 3270 1482 — 827 50 253 15,86 
Com Diploma de Ensino Médio 35,74 35,56 3148 2539 1447 3078 
Universitário Incompleto 21,17 2977 3025 2982 ^ 2226 2637 
Grau de Bacharel 753 1443 2056 2503 3388 1752 
Grau Superior a Bacharel 286 542 94 1474 2686 948 
Total 100,00 100,00 100,00 100,00 100,00. 100,00 


15,86% dos chefes de família não têm diploma de ensino 


médio. 
b. 26,86%, 39,72% 


34. a. 
Vendas/ Avaliacáo do Lucro por Acáo 
Margens/ 
de Lucro 0- 20- 40- 60- 80- 
RPL 19 39 59 79 100 Тоа 
А | 8 9 
B | 4 5 2 12 
c { | 2 3 7 
D 3 | | 5 
Е 2 | 3 
Total 4 4 6 9 13 36 
b. Р 
Vendas/ Avaliacáo do Lucro por Acáo 
Margens/ 
deLucro 0- 20- 40- 60-  80- 
RPL 19 39 59 79 100 Total 
А 1I] 8889 100 
B 833 33,33 41,67 16,67 100 
C 14,29 14,29 28,57 4286 100 
D 60,00 20,00 20,00 100 
E 66,67 33,33 100 


Avaliagóes mais altas do LPA parecem estar associadas a ava- 
liações mais altas das Vendas/Margens de Lucro/RPL. 


36. b. Náo há relacáo aparente 


Apéndice D Soluções dos Autotestes e Respostas dos Exercícios Pares 563 


38. a. b. Temperatura Mínima 
Freqüéncia 33 
Veículo Freqüéncia Percentual 413.6 8 
510: 0 0 2 4 45 5 7 9 

Accord 6 12 

Camry 7 14 6118 

F-Series i4 28 71245 5 

Ram 10 20 8 

Silverado 13 26 9 

€. А faixa de temperaturas mínimas está abaixo da faixa de 
b. А caminhonete Ford F-Series e o carro de passageiros temperaturas máximas 
Toyota Camry d. Oito cidades 
40. a. m 
Freqüéncia Freqüéncia 
Resposta Freqüéncia Percentual Temperatura Temperatura Temperatura 

Precisão 16 16 (eo Máxima Mínima 
Tacadas de aproximação (approach) 3 3 -1ia38 0 | 
Abordagem mental 17 17 44294 0 3 
Força 8 8 10а 15 | 10 
Prática 15 15 15,5 a 20,5 7 2 
Putting (tacada de curto alcance) 10 10 21,1 a26,l 4 4 
Jogada curta 24 24 266a31,6 5 0 
Decisóes estratégicas a. uae 32,2 a 37,2 En» Ду. 
Total 100 100 Total 20 20 


b. Má jogada curta, abordagem mental ruim, falta de precisão 48. a. 
€ prática limitada уеш 


Nível de Satisfação 


42. alb. 30- 40- 50- 60- 70- 80- 
Preco Freqüéncia Ocupação 39 49 59 69 79 89 Тош 
de Frequência Сит. Relativa Marceneiro 2. 4 3 1 10 
Fechamento Frequência Relativa Freq. — Cumulativa Advogado Los 2 |» I! 10 
Fisioterapeuta 5 «4» <] 2 10 
0-9,99 9 0,225 9 0225 Analista de Sistemas 2 101 4 3 10 
1019,99 to 0,250 19 0,475 
20-29,99 5 0,125 24 0,600 Total зү сыз ты ЖЕ DS 
30-39,99 11 0,275 35 0,875 
40—49,99 2 0,050 37 0,925 b. 
50—59,99 2 0,050 39 0,975 EUER 
60-69,99 0 0,000 39 0,975 Nivel do зазнав 7 
70—79,99 1 0.025 40 1,000 o: p pus es p m 
TRUM AM upação 9 Тош 
doa Е 1,000 Marceneiro 20 40 30 10 100 
44 Advogado lo 50 20 10 10 100 
К Frequência Fisioterapeuta 50 20 10 20 100 
Renda ($) Freqüéncia Relativa Analista de Sistemas 20 10 40 30 100 
ЕРЕ o 0:225 с. Os marceneiros parecem ter os mais altos níveis de satisfa- 
26.000-29.999 12 0,23 5 ção no trabalho; os advogados, os mais baixos. 
30.000-33.999 4 0,078 
34.000—37.999 2 0,039 50. a. Totais de linha: 247, 54, 82, 121 
Total 51 1,000 Totais de coluna: 149, 317, 17, 7, 14 
46. a. Temperatura Máxima E 
3 Ano Freqüéncia Combustível Freqüéncia 
4 1973 ou antes 247 Eletricidade 149 
517 1974 а79 54 Gás Natural 317 
6114 4 4 4 6 B 1980 a 86 82 Petróleo 17 
Ж КАША. 1987 291 121 Gás Propano 7 
alo 1 14 6 Total 504 Outros 14 
9102 3 Total 504 
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c. Tabulação cruzada das porcentagens de coluna 


sds Tipo de Combustível 
Construção Eletricidade Gás Natural Petróleo Gás Propano Outros 
I973ouantes 26,9 577 705 714 50,0 
1974-1979 16,1 82 11,8 286 00 
1980-1986 248 120 59 00 429 
1987-1991 322 22,1 118 0.0 74 
Total 100,0 100,0 100.0 1000 — 1000 
d. Tabulacáo cruzada das porcentagens de linha 
жа Tipo de Combustível 
Construção Eletricidade Gás Natural Petróleo Gás Propano Outros Total 
I973ouantes 16,2 744 49 20 28 1000 
1974-1979 44,5 48,1 37 37 00 1000 
1980—1986 45,1 46,4 12 00 73 1000 
1987-1991 397 578 17 00 08 1000 
52. a. Tabulacáo cruzada do valor de mercado e lucro 
Lucro (milhares de dólares) 
Valor de Mercado 0- 300- 600- 900- 
(milhares de dólares) 300 600 900 1.200 Total 
0—8.000 23 4 27 
8.000--16.000 4 4 2 2 12 
16.000--24.000 2 1 1 4 
24.000—32.000 | 2 l 4 
32.000—40.000 2 1 3 
Total 27 13 6 4 50 
b. Tabulação cruzada das porcentagens de linha 
Lucro (milhares de dólares) 
Valor de Mercado 0- 300- 600- . 900- 
{milhares de dólares) 300 600 900 1.200 Total 
0-8.000 85,19 14,81 0,00 0,00 100 
8.000—16.000 3333 3333 1667 1667 100 
16.000—24.000 0,00 5000 25,0 2500 100 
24.000—32.000 0,00 25,00 50,00 25,00 100 
32.000— 40.000 000 6667 3333 0,00 100 


c. Uma relação positiva é indicada entre o lucro e o valor de 
mercado; à medida que o lucro cresce, o valor de mercado 
também aumenta 


54. b. Uma relação positiva é demonstrada entre o valor de mer- 


cado e património dos acionistas 


Capítulo 3 


2. 
3. 


16, 16,5 
Organize os dados na seguinte ordem: 15, 20, 25, 25, 27, 28, 
30,34 


2 
i= E (8) = 1,6; arredonde para cima, para a posição 2 
20º percentil = 20 
i= 2 (8) = 2; use as posições 2 e 3 


100 
n 
259 percentil — 20 2 25 = 22,5 
i- £ (8) = 5,2; arredonde para cima, para a posição 6 


652 percentil = 28 


10. 


12. 


14. 
15. 
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sa Ed E 
i= 100 (8) = 6; use as posições 6e 7 


+ 
75º percentil = 28 2 O 29 
59,727, 57,53 
a. 422 
b. 380 
c. 690 
d. Não utilizarem a capacidade 
Ex, 695 
== 234 
Ex 20 34,75 


Moda = 25 (aparece trés vezes) 
b. Organize os dados na seguinte ordem: 18, 20, 25, 25, 25, 
26, 27, 27, 28, 33, 36, 37, 40, 40, 42, 45, 46, 48, 53, 54 
Mediana (108 e 112 posições) 
33 +36 
2 
Quem trabalha em casa é ligeiramente mais jovem 


= 34,5 


‚_ 25 — Um 
ci= 100 (20) = 5; use as posições 5 e 6 


25 + 26 
Em as 25,5 
i- 15 (20) = 15; use as posições 15 e 16 
100 d posições 15e 
42 + 45 
E =4 
| 32 2 (d 
d.i- 100 (20) = 6,4; arredonde para a posição 7 


322 percentil — 27 
No mínimo, 32% das pessoas tém 27 anos ou menos 


а. 76, 76 

b. 39, 37,5 

c. Sim; a espera de vagas das salas de emergéncia é muito 
longa 


a. US$ 639,00 
b. 98,8 fotografias 
c. 110,2 minutos 


16,4 


Intervalo = 34 — 15 = 19 
Organize os dados na seguinte ordem: 15, 20, 25, 25, 27, 28, 
30, 34 


25 20 + 25 
ieu 9729-777 =225 
75 28 + 30 
і= то; O a =29 
IQR = Q; — Q; = 29 - 22,5 = 65 
к=? „2% „у, 
п 8 
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29. a.z = 2 desvios padrão 


Xi 6-3 6-3? 1 1 3 
27 15 225 1—571-—;57 -;nomínimo, 75% 
25 -05 025 z ? 4 i 
20 -5,5 30,25 b. z = 2,5 desvios padrão 
15 -10,5 110,25 1 1 
30 45 20,25 17371-7535 = 084 no mínimo, 84% 
ЕМ 85 7225 €. z = 2 desvios padrão 
25 E 5 025 Regra empírica: 95% 
Xx-x 242 30. a. 68% 
22 i = = 
ср вр 2457 b. 81,5% 
s = 134,57 = 5,88 с. 2,5% 
16. a. Amplitude = 190 — 168 = 22 32. a. -0,67 
b. z= Eu 1068 _ р b. 1,50 
Хт 6 с. Nenhuma delas é um ponto fora da curva 
X, — xy d. Sim; 2 = 825 
“DI 34. a. 76,5; 7 
42 + (710 + 6 + 122 + (28? + (40 b. 16%, 2,5% 
= 6=1 c. 12,2; 7,89; não 
- 376 = 752 36. 15; 22,5; 26; 29; 34 
5 38. Organize os dados nesta ordem: 5, 6, 8, 10, 10, 12, 15, 16, 18 
e.s = 75,2 = 8,67 . 25 u 
867 i= 100 (9) = 2.25; arredonde para a posição 3 
5 sl 
20100) = ———(100%) = 4, 
а. x ) 178 Jo) 87% 0,= 8 


Mediana (52 posição) = 10 
18. а. 38; 97; 9,85 75 
i = —— (9) = 6,75; arredonde para a posição 7 


b. A região leste apresenta mais variação 100 
20. Dawson: amplitude = 2, s = 0,67 Q,=15 | | 

Clark: amplitude = 8, = 2,58 Regra dos cinco itens: 5, 8, 10, 15, 18 
22. a. 45,05; 23,98; 57,50; 11,475 40. а. 619, 725, 1.016, 1.699, 4.450 


b. 190,67; 13,81; 140,63; 11,86 


65 TIO --— 


d. Maior para os que fazem transações auxiliadas por corretores —L OI — 1 A 
24. Corredores de 400 metros: s = 0,0564, coeficiente de variação 5 10 5 20 
= 5,8% b. Limites: 0, 3.160 
Meio-fundistas de 1 milha: s = 0,1295, coeficiente de variação с. Sim 
= 2,9% d. Não 
26. 0,20; 1,50; 0; -0,50; -2,20 41. a. Organize os dados e ordem crescente 
27. Teorema de Chebyshev: no mínimo (1 — 1/z2) i- Am (21) = 5,25; arredonde para a 62 posição 
40 — 30 1 1 
az=— 5 21-035 075 О, = 1.872 
45 — 30 1 Mediana (112 posição) = 4.019 
b.z= =31--3= 0,89 75 
5 (3) i= 100 (21) = 15,75; arredonde para a 162 posição 
38 – 30 1 
с=с "1641-9706 О; = 8.305 
42 —30 1 Regra dos cinco itens: 608. 1.872. 4.019, 8.305, 14.138 
4:7 =241- 647 - 0,83 b. AIQ = Q4- О, = 8.305 — 1.872 = 6.433 
48 — 30 1 Limite inferior: 1.872 — 1,5(6.433) = -7.777 
ez=— -361- Gs 0,92 Limite superior: 8.305 + 1,5(6.433) = 17.955 


28. а. 95% €. Não; os dados estão dentro dos limites 


b. Quase todos 
c. 68% 
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42. 


45. 


d. 41.138 7 27.604; 41.138 seria um ponto fora da curva; o 


valor de dados seria revisado e corrigido 


0 3.000 


a. 61 


6.000 


b. 34, 45, 61, 90, 126 
€. Não; limite superior — 157,5 


. a. 18,2; 15,35 


b. 11,7; 23,5 


€. 3,4; 11,7; 15,35; 23,5; 41,3 
d. Sim; Alger Small Cap 41,3 


9.000 


12.000 


15.000 


46. b. Parece haver uma relacáo linear positiva entre x e y 
€. зуу = 265 
d. r, = 0,693 
48. —0,91; relação negativa 
50. a. 0,92 
b. Forte relacáo linear positiva 
52. a. 3,69 
b. 3,175 
53. a. Е М; fM; 
4 5 20 
7 10 70 
9 15 135 
5 20 100 
25 325 
ZM, _ 325 _ 


b. Parece haver uma relação negativa entre x e y 
Xi Yi XTX У-У 65-39 2) 
4 50 -4 4 -l6 
6 50 E 4 -8 
11 40 3 -6 -t8 
3 60 -5 14 70 
16 30 8 -16 -128 
40 230 0 0 -240 
х= 8;ў = 46 


ху 


А covariáncia da amostra indica uma associacáo linear negati- 


va entre x e y. 


ш Ээ ш 


4 "e у; (54301140) — 
O coeficiente de correlação amostral igual а 0,969 é um 


n-1 


-60 


2 Хо 900 9)  -240 


— 0,969 


indicativo de forte relação linear negativa. 


—60 


Жош 


n 


25 


54. 


56. 
58. 


62. 


64. 


70. 
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b p MO 0 WX» Му)? 
4 5 -8 64 256 
7 10 -3 9 63 
9 15 2 4 36 
_5_ 29 7 49 DAS 
25 600 
› 2404-3 60 — 
к=з т 02-1 2 
s=V25=5 
a. GPA x, Média Ponderada w; 
4(A) 9 
3 (B) 15 
2(Q) 33 
I (D) 3 
0( 0 
60 horas-crédito 
z= Уух, _ 9(4) + 15(3) + 332) + 3(1) 
Ew, 9+15+33+3 
150 
797 2,5 
b. Sim 


10,74; 25,63; 5,06; Estimativa — 1.288,8 


a. 1.800; 1.351 

b. 387; 1.710 

c. 7.280; 1.323 

d. 3.675.303; 1.917 

e. 9.271,01; 96,29; altamente positiva 

f. Usando-se um desenho esquemático (box plot): 4.135 e 
7450 


. а. 2,3; 1,85 


b. 1,90; 1,38 

c. Altria Group 5% 

d. —51, abaixo da média 
e. 1,02, acima da média 
f. Nào 


а. X = 83,135; s = 16,173 

b. US$ 50.789 a US$ 115.481 

€. A mesma amplitude do item (b); a probabilidade é mais ele- 
vada 

d. Danbury, CT, é um ponto fora da curva 


a. 502,67; relação linear positiva 
b. 0,933 


. b. 0,9856, forte relação positiva 
. a. 817 


b. 833 


a. 60,68 
b. 52 = 31,23; 5 = 5,59 


Apêndice D 


Capítulo 4 


10. 


12. 


14. 


6-5-4-3-2-1__ 
CDELI 
BCD ВЕЕ 
BCE CDE 
BCF CDF 
BDE CEF 
BDF DEF 


6 6! 
(i = 351 - 20 
ACE 
ACF 
ADE 
ADF 


AEF 


b. (Cara, Cara, Cara), (Cara, Cara, Coroa), (Cara, Coroa, 
Cara), (Cara, Coroa, Coroa) 
(Coroa, Cara, Cara), (Coroa, Cara, Coroa), (Coroa, Coroa, 
Cara), (Coroa, Coroa, Coroa) 

c. 3 


Р(Е) = 0,40, P(E;) = 0,26, Р(Ез)= 0,34 
Foi utilizado o método de fregiiência relativa. 


а, 4: A Comissão faz uma recomendação positiva — A Cámara 
aprova 
A Comissão faz uma recomendação positiva — A Cámara 
desaprova 
A Comissão faz uma recomendação negativa — A Cámara 
aprova 
A Comissão faz uma recomendação negativa — A Cámara 
desaprova 


50 

a. Use o critério de freqüéncia relativa 
P(Califórnia) —1.434/2.374 — 0,60 

b. O número das empresas que não são dos quatro estados: 
= 2.374 — 1,434 - 390 - 317 – 112 
= 221 
P(Nenhum dos quatro estados) = 221/2.374 = 0,09 

c. P(N&o estar nas primeiras etapas) — 1 — 0,22 — 0,78 

d. Estimativa das empresas de Massachussetts que estão na pri- 
meira etapa de desenvolvimento = (0,22)390 == 86 

e. Se admitirmos que a quantia total dos fundos investidos nào 
difere por estado, podemos multiplicar a probabilidade de 
um valor destinado ao Colorado pelo total de fundos de 
investimentos desembolsados para obtermos uma estimativa. 
Estimativa de fundos destinados ao Colorado 
= (112/2.374XUSS 32,4) 
= US$ 1,53 bilhão 
Nota do autor: A verba real destinada ao Colorado foi de 
US$ 1,74 bilhão. 


a. 2.869.685 
b. 1/2.869.685 
c. 1/120.526.770 


a. V, 
һ.% 
с. 94 


= 501 50:49-48:47 


= = 230 
4146! 43:2 230,300 
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15. 


16. 


17. 


18. 


20. 


22. 


23. 


567 


а. $ = (ás de paus, ás de ouro, ás de copas, ás de espadas) 
b. 5 = (2 de paus, 3 de paus, ... 10 de paus, J de paus, Q de 
paus, K de paus, A de paus) 
c. Há 12; valete, rainha ou rei em cada um dos quatro naipes. 
d. Para (a): 4/52 = 1/13 = 0,08 
Para (b): 13/52 = = 0,25 
Para (c): 12/52 = 0,23 


a. 36 

c. 6 

d. 518 

€. Não; Р(йпраг) = P(par) = À 
f. Clássico 


а. (4, 6), (4, 7), (4, 8) 

b. 0,05 + 0,10 + 0,15 = 0,30 
€. (2,8), (3,8), (4,8) 

d. 0,05 + 0,05 + 0,15 = 0,25 
e. 0,15 


a. P(0) = 0,05 
b. P (4 ou 5) = 0,20 
е. P(0, 1 ou 20 = 0,55 


a. 0,112 
b. 0,086 
с. 0,49 


а. 0,40; 0,40; 0,60 

b. 0,80, sim 

€. А© = (Ез, Ej, Е$);С© = (Е\, Ea); 
Р(АС) = 0,60; Р(С©у = 0,40 

d. (Ej, Е, Es); 0,60 

e. 0,80 


a. P(A) = P(E) + P(E9 + Р(Е,) 
= 0,05 + 0,25 + 0,10 = 0,40 
P(B) = P(E,) + P(E) + P(E) 
= 0,20 + 0,25 + 0,05 = 0,50 
P(C) = Р(Е,) + P(E) + Р(Е;) + (Ej) 
= 0,20 + 0,20 + 0,15 + 0,05 = 0,60 
b. A U B = (E, E, Ej Es E); 
P(A U B) = P(E) + P(E) + PU) + P(E,) + P(E) 
= 0,05 + 0,20 + 0,25 + 0,10 + 0,05 
= 0,65 
€. AB = {Е;}; P(A П В) = P(E) = 025 
d. Sim, eles sáo mutuamente exclusivos 
e. Ве = (Ej, Es, Es, Fg]; 
Р(Вс) = P(Ey) + Р(Ез) + P(Es) + PES) 
= 0,05 + 0,20 + 0,15 + 0,10 


= 0,50 
24. a. 0,05 
b. 0,70 
26. a. 0,30; 0,23 
b. 0,17 
c. 0,64 
28. Admitamos que B = um assinante alugou um carro por razões 


comerciais 


568 


P = um assinante alugou um carro por razões pessoais 
а. P(B U P) = P(B) + P(P) - P(B «Ру 

= 0,540 + 0,458 — 0,300 

= 0,698 
b. P(Nenhuma) = 1 — 0,698 = 0,302 


РА ПВ) 040 


. а. Р = = 0,6667 
30. а. P(A | В) PB) 0,60 
Р(А Г В) 0,40 
.Р(ВІА) = ————— = =0, 
b ) P(A) 0,50 0,80 
с. Мао, porque P(A | В) = P(A) 
32. a. 
Sim Мао Totat 
18 а 34 anos 0,375 0,085 0,46 
À partir de 35 anos 0,475 0,065 0,54 
Total 0,850 0,150 1,00 


33. 


36. 


b. 4695, 18 a 34 anos; 54% a partir de 35 anos 
c. 0,15 


d. 0,1848 

e. 0,1204 

f. 0,5677 

£. Maior probabilidade de "Náo" para as idades de 18 a 34 

anos 
a. 
Razáo para Matricular-se 
Custo/ 
Qualidade . Conveniência Outros Total 

Tempo integral 0,218 0,204 0,039 0,46] 
Tempo parcial 0,208 0,307 0,024 0,539 
Total 0,426 0,511 0,063 1,000 


a. A maior probabilidade é que um estudante cite o custo ou 
conveniência como a primeira razão (probabilidade = 
0,511); a qualidade da escola é a razão citada pelo segundo 
maior número de estudantes (probabilidade = 0,426) 

€. P(qualidade | tempo integral) = 0,218/0,461 = 0,473 

d. P(qualidade | tempo parcial) = 0,208/0,539 = 0,386 

e. Quanto à independência, devemos ter P(A)P(B) = P(A П 
B); da tabela, 

P(A Г В) = 0,218, P(A) = 0,461, P(B) = 0,426 
Р(А)Р(В) = (0,461)(0,426) = 0,196 

Uma vez que Р(А)Р(В) + P(A N В), os eventos não são 
independentes 


. a. 0,44 


b. 0,15 
€. 0,136 
d. 0,106 
e. 0,0225 
f. 0,0025 


а. 0,7921 
b. 0,9879 
c. 0,0121 
d. 0,3364, 0,8236, 0,1764 
Não cometer falta em Reggie Miller 


38. 


39. 


40. 


42. 


44. 


46. 


50. 


52. 


54. 


56. 
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a. 0,0209 

b. 0,0141; 0,027 
с. Não 

4. 0,0202; 0,0458 
e. Sim 


a. Sim, porque P(A, N Aj) = 0 

b. P(A, N B) = P(A)P(B | A) = 0,40(0,20) = 0,08 
P(A, П В) = P(Aj)P(B | Aj) = 0,60(0,05) = 0,03 

с. P(B) = P(A, N B) + P(A; П B) = 0,08 + 0,03 = 0,11 


а. P(A, 1 8) = 008 = 0,7273 
01 
0,03 

Р(А;1В) = 003 = 0,2727 
(A, |B) o1 


a. 0,10; 0,20; 0,09 
b. 0,51 
c. 0,26; 0,51; 023 


M = pagamento não efetuado 

D, = cliente inadimplente 

D, = cliente não-inadimplente 

P(Dy = 0,05, РР) = 095, PMID) = 02, PMID)=1 
P(D)P(MID) 

P(D)P(MID,) + P(D)P(MID;) 

_ (0,05)(1) 

© (0,05)(1) + (0,95)(0,2) 


a. P(D,1M) = 


b. Sim, a probabilidade de inadimpléncia é maior que 20 


2. 0,47; 0,53; 0,50, 0,45 
b. 0,4963 

€. 0,4463 

d. 47%, 53% 
a. 0,68 

b. 52 

c. 10 


2.315 

b. 0,29 

€. Мао 

d. Republicanos 
0,76 

024 

0, 2022 


. 0,4618 
. 0,4005 


Ros рр 


0,49 
0,44 
0,54 
Мао 
Sim 
0,25 
‚0,125 
c. 0,0125 


yDPPePRÓFP 
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d. 0,10 
e. Nào 


58. 3,44% 


60. a. 0,40 
b. 0,67 


Capítulo 5 


1. а, Сага, Cara, (H, H) 
Cara, Coroa (H, T) 
Coroa, Cara (T, H) 
Coroa, Coroa (T, T) 
b. x = número de "caras" ao jogar a moeda duas vezes 


c. Resultado Valores de x 
(HH) 2 
(H, T) | 
(T. H) | 
(Т, Т) 0 


d. Discreta; pode assumir trés valores: 0, 1 e 2 


2. a.x = tempo em minutos para montar o produto 
b. Qualquer valor positivo: x > 0 
€. Contínua 


3. Admitamos que 5 (Sim) = o cargo é oferecido 
М (Não) = o cargo não é oferecido 
a. S = {$, S, 5), (5, 5, №), (S, №, 5), GS, №, №), (М, S, AN, S, 
N), (№, №, 5), (N, М, №) 
b. Admitamos que № = número de ofertas feitas; N é uma 
variável aleatória discreta 


c. 
Resultado 
Experimental (5. 5, 5) (5, 5, N) (5, N, 5) NN) (N, S.S) (N.S, 9 (N,N.S (NN, N) 
ValordeN | 3 2 2 1 2 ] 1 o 


4. x=0,1,2,...,12 


6. а. 0, 1, 2,..., 20; discreta 
b. 0, 1, 2, . . .; discreta 
€. 0, 1, 2,..., 50; discreta 
d. 0 = x = 8; contínua 
е. х > 0; contínua 


7. а. fx) > О para todos os valores de x 
Sfx) = 1; portanto, é uma distribuição de probabilidade 
válida 
b. A probabilidade de x = 30 é (30) = 0,25 
€. A probabilidade de x = 25 é f (20) + f/25) = 0,20 + 0,15 = 


0,35 
d. A probabilidade de x > 30 é f (35) = 0,40 
8. a. x Кх) 
| 3/20 = 0,15 
2 5/20 = 0,25 
3 8/20 = 0,40 
4 4/20 = 020 
Total 1,00 
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b. 
Кх) 
0,4 
03 
02 
0,1 
N x 
| 2 3 4 
с. f(x) = 0 para x = 1, 2, 3,4 
Хх) = 1 
10. а x | 2 3 4 5 
Кх) + 0,05 0,09 0,03 0,42 0,41 
b x | ! 2 3 4 5 
fo) | 004 оо G2 046 028 
c. 0,83 
d. 0,28 
€. Altos executivos mais satisfeitos 
12. a. Sim 
b. 0,65 
14. a. 0,05 
b. 0,70 
c. 0,40 
16. a. y f(y) Yf(y) 
2 0,20 0,40 
4 0,30 1.20 
7 0,40 2,80 
8 0,10 0,80 
Totais 1,00 5,20 
Е(у) = р = 5,20 
b y у-и (y-a)? Му) (y-uFf(y) 
2 —3,20 1024 020 2,048 
4 —1,20 1,44 0,30 0,432 
7 1,80 3,24 0,40 1,296 
8 2,80 7,84 0,10 0,784 
Total 4,560 
Var( y) = 4,56 
о = V4,56 = 2,14 
18. аъ 
х f(9 жх) х-и (х-и)? (х-и) fi) 
0 0,04 000  —1,84 3,39 0.12 
| 0,34 034  —0,84 0,71 0,24 
2 0,41 0,82 0,16 0,02 0,01 
3 0,18 0,53 1,16 1,34 0,24 
4 0,04 0,15 2.16 4,66 0,17 
Total 1,00 1,84 0,79 
T T 
Е(х) Var(x) 
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c/d. 28. a. 0,2789 

y fn УМ) у-н (v-uy y-vfty) b. 0,4181 

о 000 000 -293 8,58 0,01 e. 0,0733 

i 003 003 093 272 012 30. а. A probabilidade de uma peça defeituosa ser produzida deve 
3 0,52 | 155 0,07 ool 0.00 ser igual a 0,03 para cada peça selecionada; as peças devem 
4 0,22 0,90 1.07 1,15 0,26 ser selecionadas independentemente. 

Total 1,00 2,93 0,59 b. Admitamos que D = peça defeituosa 
G = peça sem defeito 
E(y) Var(y) Número 


Resultado de 
Experimental Peças 
Defeituosas 


e. O número de quartos de dormir nas casas ocupadas pelos 
proprietários é maior que nas casas ocupadas por inquilinos; Primeira Peça Segunda Peça 
o número esperado de quartos de dormir é 1,09 = 2,93 — 
1,84 maior, e a variabilidade no número de quartos de dor- 
mir é menor no que diz respeito às casas ocupadas pelos 
proprietários 


20. a. 166 
b. —94; a preocupação é proteger-se das despesas decorrentes 
de um grande acidente 


D (D, D) 2 


(D, б) 


(G D) ] 
22. a. 445 
b. Prejuízo de US$ 1.250 


1 
1 
1 
1 
1 
| 
, (6.6) 0 


i 
24. a. Média: 145; grande: 140 | 


b. Média: 2.725; grande: 12.400 ' 1 
€. Dois resultados representam exatamente um defeito 


25. a. d. P(sem defeito) — (0,97)(0,97) — 0,9409 
P( defeito) = 2(0,03)(0,97) = 0,582 
P(2 defeitos) = (0,03)(0,03) = 0,0009 


32. a. 0.90 
b. 0,99 
c. 0,999 
d. Sim 
34. a. 0,0634 
b. 0,0634 
c. 0,9729 
Fe? 
2 106! = 2 oae = 38. а. fe) = 74 
b. f0) = (oo (0)! = d: (040,6) = 0,48 5.02241 
> " c. 0,1494 
e 0) = ( 0) оов) = 910100036) = 0,36 d. 0,8008 
nn 23972 
2 2! 39. a. f(x) = 
d. f2) = ( Joss? = nr (0,16)0,1) = 0,16 xe 
2 210! b. д = seis ocorrências em trés períodos 
-6 
e. P(x > 1) = f() + f(2) = 048 + 0,16 = 0,64 с. f() = E 
f. Е(х) = np = 2(0,4) = 0,8 al 
Мац) = np(1 — p) = 20,4X0,6) = 0,48 а. fà = PO = 40.1353) 706 
o = VOA8 = 0,6928 i 2! 2 
6876 
26. a. RO) = 0,3487 e /@ = ~r = 01606 
b. R2) = 0,1937 de 
c. 0,9298 t. f) = Zr = 01563 
4. 0,6513 у 
el 40. a. u = 48(5/60) = 4 
3,-4 
f. o? = 0,9000, с = 0,9487 ХЭ) = 4 A = бодан» = 01952 
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42. 


44. 


46. 


48. 


50. 


b. u = 48(15/50) = 12 MM T 40! 
- 0 /A10, 10130! 
1220-12 = = MU 
fao) = jg 7 01048 Ho (9) 60! 
с. и = 48(5/60) = 4; pode-se esperar que haja quatro chamadas 40 ш 
telefónicas em espera depois de cinco minutos = (тоок (е) 
pn 10!30!/\ 60! 
РО) = ~r = 0,0183; a probabilidade de não haver . 40:39-38:37:36:35-34-33-32-31 
nenhuma espera depois de cinco minutos é 0,0183 60-59-58:57-56-55-54-53-52-51 
d. т = 48(3/60) = 2,4 = .01 
2.404724 b.r=20,x=1 
HO) = 0! = 0,0907 = 0,0907; a probabilidade de (2) (9) 
nenhuma interrupção em trés minutos é 0,0907 HD = 1/\9/ _ ( 40! л”) 
T7 60 9131! 60! 
a. f) == = e^! = 0,0009 10 
"me = ‚07 
b. probabilidade = 1 — [f(0) + 1 ` ' 
probabilidade = 1— O) + ADI e 1-f(0) -) = 1 -0,08 = 0,92 
/@) = = Те”? = 0,0064 d. A mesma probabilidade de um dos empregados ser da fábri- 
1! 
probabilidade = 1 — [0,0009 + 0,0064] = 0,9927 ca do Havaí; no item (b), era de aproximadamente 0,07 
c. u = 3,5 52. a, 0,5333 
35099335 _,; b. 0,6667 
fO = ce =00302 c. 0,7778 
probabilidade = 1 – f(0) – 0,0302 = 0,9698 й. п=7 
d. probabilidade = 1 — RO) + А1) + Д2) + Д3) + AA) 54. a. x |i 2 3 4 5 
= 1 — [0,0009 + 0,0064 + 0,0223 + 0,0521 + 0,0912] fo) |024 021 010 021 024 
= 0,8271 b. 3,00; 2,34 
a. р = 125 c. Debêntures: E(x) = 1,36, Var(x) = 0,23 
b. 0.2865 Fundos de ações: E(x) = 4, Var(x) = 1 
с. 0,3581 56. a. 0,0596 
d. 0,3554 b. 0,3585 
(ET). Ga) iom 
a) -МА\4—1/ _ \ишДзш d. 9,7468 
af 000 ^ O 58. а. 0,9510 
4 416! b. 0,0480 
с. 0,0490 
„ 00635) _ 0,50 
210 60. 
Qe — з) а. 240 
242-2) у Ь. 12,9615 
HO) => uc oc 
b. f(2) (3) 45 0,067 с. 12,9615 
2 62. 0,1912 
QG - 5) 64. a. 0,2240 
0/\2 -0 (0021) b. 0,5767 
. f(Q) = Lt 2 АЕ . O, 
e fo 10 4s T 04667 66. a. 0,4667 
2 b. 0,4667 
© (" - Jj €. 0,0667 
| QA4-2/] den А 
d. f2) = BUM o) =o = 930 Capítulo 6 
4 1. a. 
а, 0,5250 ғ) 
b. 0,1833 3 
М = 60,п = 10 2 
ar=20,x=0 


0,50 1,0 n5 20 
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15. a. 


b. P(x — 1,25) — 0; a probabilidade de qualquer ponto em par- 
ticular é zero porque a área sob a curva acima de qualquer 
ponto em particular é zero. 

c. P(1,0 = x = 1,25) = 2(0,25) = 0,50 

d. Р(1,20 < x < 1,5) = 2(0,30) = 0,60 


b. 0,50 
с. 0,60 
d. 15 
e. 8,33 
a. 


Fo) 
E 
1,0 

0,5 


0 | 2 3 


b. P(0,25 < x « 0,75) = 1(0,50) = 0,50 
с. Р(х = 0,30) = 1(0,30) = 0,30 
d. Рх > 0,60) = 1(0,40) = 0,40 


a. 0,40 
b. 0,64 
с. 0,68 


10. а. 0,3413 
b. 0,4332 
с. 0,4772 
d. 0,4938 


12. а. 0,2967 
b. 0,4418 
c. 0,3300 
d. 0,5910 
е. 0,8849 
f. 0,2389 


13. a. 0,6879 — 0,0239 — 0,6640 
b. 0,8888 — 0,6985 — 0,1903 
€. 0,9599 — 0,8508 — 0,1091 


14. a.z = 1,96 
b.z = 0,61 
с.т = 1,12 
d. z = 0,44 


Procure na tabela uma área igual а 0,5000 — 0,2119 = 0, 

2881; z — 0,80 destaca uma área igual a 0,2119 na cauda 

superior, desse modo, para uma área igual a 0,2119 na 

cauda inferior, z — —0,80 

b. Procure na tabela uma área igual a 0,9030/2 — 0,4515; z — 
1,66 

с. Procure na tabela uma área igual а 0,2052/2 = 0,1026; 2 
=0,26 

d. Procure na tabela uma área igual a 0,4948; 2 = 2,56 

е. Procure na tabela uma área igual a 0,1915; uma vez que o 

valor que procuramos está abaixo da média, o valor z nega- 

tivo; assim, 2 = —0,50 


16. 


18. 


20. 


22. 


24. 


26. 


30. 
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a.z = 2,33 
Б. z = 1,96 
ez = 1,645 
d.z = 1,28 


u=30es=82 
а. Para x = 40, z = = 1,22 


P(z = 1,22) = 0,5000 + 0,3888 = 0,8888 
P(x = 40) = 1,000 — 0,8888 = 0,1112 
20 — 30 


40 — 30 


b. Parax = 20,2 = --122 
Р(2 > –1,22) = 0,5000 + 0,3888 = 0,8888 
Р(х = 20) = 1,000 — 0,8888 = 0,1112 
e. Um valor 2 igual а 1,28 destaca uma área de aproximada- 
mente 10% na cauda superior 
x = 30 + 82(128) 
= 40,50 
Um ргесо de US$ 40,50 ou mais por agáo colocará a 
empresa entre as 10% maiores. 


a. 0,0885 

b. 12,5195 

с. 93,8 horas ou mais 
a. 0,4194 

b. US$ 517,44 ou mais 
c. 0,0166 

а. 902,75; 114,185 

b. 0,1841 

€. 0,1977 

d. 1.091 milhão 

а. и = пр = 100(0,20) = 20 


о? = np(1— р) = 100(0,20у0,80) = 16 
o= М6 = 4 
b. Sim, porque пр = 20 e b(1— p) = 80 
c. PQ3,5 = x < 24,5) 


22289 20... 13. Área = 0,3708 
z= nm = 40,88 Área = 0,3106 


P(23,5 = x s 24,5) = 0,3708 — 0,3106 = 0,0602 
d. Р(17,5 = x = 22,5) 


17,5 — 2 А 
z= 175-20 = 40,63 Área = 0,2357 


22225220 _ +0,63 Área = 0,2357 
Р(17,5 = x = 22,5) = 0,2357 + 0,2357 = 0,4714 
е. Р(х = 15,5) 
_ 15,5 – 20 
с» 
Р(х = 15,5) = 0,5000 — 0,3708 = 0,1292 


а. 0,1867 
b. 125 
c. É um lance de sorte 


=-1,13 Área = 0,3708 


а. 220 
b. 0,0392 
c. 0,8962 


Apéndice D 


32. 


33. 


35. 


36. 


38. 


40. 


42. 


a. 0,5276 
b. 0,3935 
c. 0,4724 
d. 0,1341 


а. Р(х = х) = 1 = е79/3 
b. Р(х = 2) = 1 — e5 —1— 0,5134 = 0,4866 
с. Р(х = 3) = 1-Р(х = 3) = 1 -~ (1 — e738) 
= е-1 = 0,3679 
d. Р(х = 5) = 6-522 1 — 0,1889 = 8111 
е. Р(2 = х = 5) = Р(х = 5) - р(х = 2) 
= 0,8111 — 0,4866 = 0,3245 


. а. 0,3935 


b. 0,2231 
c. 0,3834 


f(x) 
0,09 
0,08 
0,07 
0,06 
0,05 
0,04 
0,03 
002 
00! 


0 6 12 18 24 


b. Р(х = 12) = 1 — e722 = ] — 0,3679 = 0,6321 
€. Р(х 6) = 1 — е-5Л2 = 1 — 0,6065 = 0,3935 
d. Р(х = 30) = 1 — Р(х < 30) 

=1— (1 — e7302) 

= 0,0821 


a. 50 horas 
b. 0,3935 
с. 0,1353 


a. f(x) = 30е-30х 
b. 0,0821 
c. 0,7135 


a. US$ 3.780 ou menos 
b. 19,22% 
c. US$ 8.167,50 


a. 3.229 
b. 0,2244 
c. US$ 12.382 ou mais 


. a. 0,0228 


b. US$ 50,00 


. a. 38,3% 


b. 3,59%, na melhor das hipóteses; 96,41%, na pior. 
c. 38,21% 


. 4 = 19,23 onças (568,70 mL) 
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50. a. Perder US$ 240,00 
b. 0,1788 
€. 0,3557 
d. 0,0594 


52. a. V; de minuto 
b. 7e7™ 
c. 0,0009 
d. 0,2466 
54. a. 2 minutos 
b. 0,2212 
c. 0,3935 
d. 0,0821 


Capítulo 7 


1. a. АВ, AC, AD, AE, BC, BD, BE, CD, CE, DE 
b. Com dez amostras, cada uma tem uma probabilidade de No 
C. Ee C, porque 8 e O não se aplicam; 5 identifica E; 7 não se 
aplica; pula-se 5 porque E já está na amostra; 3 identifica C; 
2 não é necessário porque o tamanho 2 da amostra já está 
completo 


2. 22, 147, 229, 289 
3. 459, 147, 385, 113, 340, 401, 215, 2, 33, 348 


4. а. Nasdaq 100, Oracle, Microsoft, Lucent, Applied Materials 
b.252 


6. 2.782, 493, 825, 1.807, 289 


8. Maryland, Iowa, Estado da Flórida, Virgínia, Pittsburgh, 
Oklahoma. 


10. a. finita 
b. infinita 


П. аў = — = — = 9 


ху = (40+ (19+ P (2p 452 


= 48 
48 
s= Yo 
12. a. 0,50 
b. 0,3667 
13. až = 24 = 465 _ оз 
п 5 
b. X (x - x) (х; - х) 
94 + | 
100 +7 49 
85 -8 64 
94 +1 | 
92 -I | 
Totais 465 0 Im 
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2 Za _ 116 _ 
duh eS EE 


14. a. 0,45 
b. 0,15 
€. 0,45 


16. a. 0,10 
b.20 
€. 0,72 


18. a. 200 
b.5 
c. Normal, com E((x))- 200 e o; = 5 
d. A distribuição de probabilidade de x 


19. a. А distribuição amostral é normal com 


E(X) = и = 200 
g,7 5-3. Lg 
* wn VIO 
Para 45, (X — и) = 5, 
EM = 
z= a; 5 ! 


Área = 2(0,3413) = 0,6826 у 


b. Рага £10, (x — д) = 10, 
La dO. 
Z= gy 5 


Área = 2(0,4772) = 0,9544 
20. 3,54; 2,50; 2,04; 1,77 
o; decresce à medida que n se eleva 


22. a. Normal, com E(X) = 51.800 e o; = 516,40 
b. a; decresce para 365,15 
с. оз decresce à medida que л se eleva 


23. a. 


51.300 51.800 52.300 


o 4000 


ор = — = = 51640 
* vn М0 
52.300 — 51.800 
2= 0564 = +097 
Área = 2(0,3340) = 0,6680 
4.0 
b. о; = o = 4.000 = 365,15 
zn 51800 
= aos = +137 


Área = 2(0.4147) = 0.8294 


24. a. Normal, com E(X) = 4.260 e o, = 127,28 


b. 0,95 
c. 0,5704 


26. а. 0,5034; 0,6212; 0,7888; 0,9232; 0,9876 


b. Maior probabilidade dentro de +250 


28. a. Normal, com E(X) = 687 e о, = 34,29 


b. 0,9964 
c. 0,5346 
d. Aumentar o tamanho da amostra 


30. a. n/N = 0,01; não 


b. 1,29; 1,30; pouca diferença 
c. 0,8764 


32. a. Е(р) = 0,40 


Ра - p. [040x060 _ 
o= PEE 206 0,0846 


Área — 2(0,3078) — 0,6156 
PHP. 005 |, 
b. o 00346 ^" 


Área = 2 (0,4251) = 0,8502 


34. а. 0,6156 


b. 0,7814 
с. 0,9488 
d. 0,9942 
€. Maior probabilidade com п maior 


35.а. — fa-p [030070 _ 
бүз =ү зүр = 0068 


P 


0,30 


A distribuição normal é apropriada porque np = 100(0,30) 
30 e n(1— p) = 100(0,70) = 70 são ambos maiores que 5 


b. Р(0,20 = px 0,40) = ? 
0,40 – 0,30 _ 

Z= 0,0458 
Área = 2(0,4854) = 0,9708 

с. Р(0,25 = р = 0,35) = ? 
0,35 — 030 — 

2= 0,0458 
Атеа = 2(0,3621) = 0,7242 


2,18 


1,09 


Apéndice D 


36. 


38. 


40. 


42. 
44. 


46. 


48. 


50. 


52. 


54. 


a. Normal, com E(p) = 0,56 e 9; = 0,287 
b. 0,7062 
€. 0,8612; 0,9438 


a. Normal, com E(p) = 0,56 е g; = 0,0248 
b. 0,5820 
c. 0,8926 


a. Normal, com E(p) = 0,76 e 0; = 0,0214 
b. 0, 8384 
€. 0,9452 


112, 145, 73, 324, 293, 875, 318, 618 


a. Normal, com E(X) = 115,50 е o; = 5,53 
b. 0,9298 
с. 0,0026 


a. 707 

b. 0,50 

€. 0,8414 
d. 0,9544 


a. 625 
b. 0,7888 


а. Normal, com E(p) = 0,305 е о = 0,0326 
b. 0,7814 
c. 0,4582 


а. 0,9606 
b. 0,0495 


а. 48 
b. Normal, com Ё(р) = 0,25 е 9; = 0,0625 
€. 0,2119 


Capítulo 8 


2. 


19. 


12. 


Use X + zaj(0/Vn) 
a. 32 + 1,645 (6/50) 
32 + 14; 30,6 а 334 
b. 32 + 1,96(6//50) 
32 + 1,66; 30,34 a 33,66 
c. 32 + 2,576(6/V50) 
32 + 2,19; 29,81 a 34,19 


54 


a. 1,96o//Vn. = 1,96(5/V49 у= 1,40 
b. 24,80 + 1,40; 23,40 a 26,20 


8,1 a 8,9 


a. A população é, no mínimo, aproximadamente normal 


b. 3,1 
€. 4,1 


a, US$ 113.638 a US$ 124.672 
b. US$ 112.581 a US$ 125.729 
с. US$ 110.515 a US$ 127.795 


d. A amplitude aumenta quando o nível de confiança sobe 


a. 2,179 
b. 1,676 


13. 


14. 


15. 


16. 


18. 


25. 


26. 
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с. 2,457 
d. 1,708 e 1,708 
е. 2,014 e 2,014 


ax- 24.80, 0 
n 8 
_ Be = 592 [84 _ 
bsc ү —— = үт = 346 


3,46 


c а) = aae (28) -29 


_ 5 
Ч.х + tos.) 
10+ 29 (7,1 a 12,9) 


а. 21,5 а23,5 
b. 21,3 а 23,7 
с. 20,9 а 24,1 
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d. Ота margem де erro maior е um intervalo mais amplo 


Xm tals/Vn) 
confiança de 90%: gl = 64 e toos = 1,669 


52 
19,5 + 169( > ) 
v65 
19,5 x 1,08 (18,42 a 20,58) 
confiança de 95%: gl = 64 e (5954 = 1,998 


52 
19,5 + T E 
V65. 


19,5 + 1,29 (18,21 a 20,79) 


a. 1,69 
b. 47,31 a 50,69 


€. Menos horas e custos mais elevados para a United Airlines 


а. 3,8 

b. 0,84 

€. 2,96 a 4,64 

d. Maior n na próxima vez 


. 6,28 а 6,78 
22. 


a. 3,35 
b. 2,40 a 4,30 
Intervalo _ 36 


. а. Valor planejado de a = ————— =>" = 9 


4 4 


2802502 (196) 9y 


b.n- 3—7———423 = 34,57 ; usen = 35 


E (3)? 
(19697 
с.п = с? 


22. 


2 
o 
а. Use n = ar 
E 


_ (198) (6,82) 


n= a 5% = 79,41; use n = 80 
(1,645)2(6,82)2 
Б. л = QU = 31,47; use n = 32 
а. 340 
b. 1.358 


= 779 = 71,19; use n = 78 
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28. а. 343 52. 176 
Bde 54, а, 0,5420 
0 b. 0,0508 
d. : nee maior; com 99% de confiança, não recomenda- c. 0,4912 a 0,5928 
56. a. 0,68 
3981 b. 0,6391 a 0,7209 
31. а.р = A0. 0,25 
UT 400 7 58. a. 1.267 
pa — p 0,25(0,75 b. 1.509 
p ш =® „_ (25015) 00217 
п 400 60. а. 0,3101 
pa - p b. 0,2898 a 0,3304 
ce pt оү c. 8.219; não, esse tamanho de amostra é desnecessariamente 
0,25 + 1,96(0,0217) - grande 
0,25 + 0,0424; 0,2076 a 0,2924 Capítulo 9 
32. a. 0,6733 a 0,7267 
2. a. Hy ji = 14 
. 0,6682 а 0,7318 0 
Deo : Ha > 14 
34. 1.068 b. Não há evidências de que o novo plano aumentará as ven- 
281 
35. a. p = 221 = 4599 (46%) das: | 
611 с. A hipótese de pesquisa u > 14 é sustentável; о novo plano 
a(l — р 45991 — 0,4599 aumenta as vendas 
b. "E UP. TN ( 29) .. 0,0332 
n 611 4. а. Hy i 2220 
c. p + 0,0332 Hy p < 220 


0,4599 + 0,0332 (0,4267 а 0,4931 m 
f d ) 5. a. Rejeitar Но: p = 56,2 quando ela é verdadeira 


36. a. 0,4393 b. Aceitar Ho: 4 = 56,2 quando ela é falsa 
b. 0,3870 a 0,4916 
Я 6. aHyu=1 
38. а, 0,0430 Hyu>l 
b. 0,2170 a 0,3030 b. Afirmar que > 1 quando isso não é verdadeiro 
c. 822 с. Afirmar que и = 1 quando isso não é verdadeiro 
2 
uns 196 Перу 8. a Hy; ш> 220 
E Не p < 220 
1,962(0,33)(0,67) b. Afirmar que и < 220 quando isso não é verdadeiro 
n- (0,03)? = 943,75; use n = 944 c. Afirmar que р > 220 quando isso não é verdadeiro 
Eta 264-25 _ 
2,576%(0,33)(0,67) Darc a aia АМ 
b.n- (0,03)? — 1.630,19; use n — 1.631 b. Área — 0,4306 
40. 0,0267; (0,8333 a 0,8867) Valor p — 0,5000 — 0,4306 — 0,0694 
42. а. 0,0442 c. Valor р > 0,01, não rejeitar Но 
. а. Bf 
À d. Rejeitar Hg se z > 2,33 
b;501:1.068; 2:401, 2.604 1,48 < 2,33, não rejeitar Ho 
44. a. 2.009 23-4 15-15 — 
b. 47.991 а 52.009 Hk Ou Aue ^ MM 
46. а, 998 b. Área — 0,4772 
b. US$ 24.479 a US$ 26.455 Valor p-7:200,3000::0:4772) 00456 
c. US$ 24.479 a US$ 26.455 с. Valor p = 0,05, rejeitar Но 
c. US$ 93,5 milhões d. Rejeitar Hose z = -1,96 ou z > 1,96 
d. Sim, US$ 21,4 (30%) a mais de O Mundo Perdido — -2,00 = -1,96, rejeitar Ho 
Jurassic Park 12. a. 0,1056; não rejeitar Ho 
48. a. 14 minutos b. 0,0062; rejeitar Ho 
b. 13,38 а 14,62 с. = 0; rejeitar Ho 
с. 32 por dia d. 0,7967; não rejeitar Ho 


d. Redução do quadro de funcionários 
50. 37 


14. a. 0,3844; não rejeitar Но 


Apéndice D 


15. 


16. 


18. 


20. 


22. 


26. 


27. 


b. 0,0074; rejeitar Ho 
с. 0,0836; não rejeitar Ho 


а. Ho: ш> 1.056 
Hy p< 1.056 
Z— i 910 — 1.056 
- =-D>DD = -1,83 
bit 1.600//400 


Valor p — 0,5000 — 0,4664 — 0,0336 

c. Valor p = 0,05, rejeitar Но. A média de restituição do IR 
para quem faz declarações “de última hora" é inferior a 
US$ 1.056 

d. Rejeitar Hose z = —1,645 
—1,83 = —1,645, rejeitar Но 


a. Ho: u = 895 
Нұ и> 895 
b. 0,1170 
c. Não rejeitar Но 
d. Manter o julgamento; coletar mais dados 


а.Ну и. = 4,1 
Hy н tal 
b. –2,21; 0,0272 

c. Rejeitar Hg 


a. Но: р = 181.900 
Н: p. < 181.900 

b. -2,93 

c. 0,0017 

d. Rejeitar Ho 


а. Hy p = 8 
Нұр #8 
b. 0,1706 
c. Não rejeitar Ho 
d. 7,83 a 8,97; Sim 
Zoo 17-18 — 


ав Casa 


b. Graus de liberdade = п — 1 = 47 
A área na cauda inferior se encontra entre 0,05 e 0,10 
O valor p (bicaudal) se encontra entre 0,10 e 0,20 
c. Valor p > 0,05; não rejeitar Но 
d. Com gl = 47, toms = 2,012 
Rejeitar Ho se t = —2,012 ou t > 2,012 
t = —1,54; não rejeitar Но 


—1,54 


a. Entre 0,02 e 0,05; rejeitar Hg 
b. Entre 0,01 e 0,02; rejeitar Ho 
c. Entre 0,10 e 0,20; não rejeitar Ho 


a Ho: и = 238 
Н; p< 238 
ж — ду _ 231- 238 
г= =] is 
b s/Yn — so/V100 


Graus de liberdade = л – 1 = 99 
Valor p entre 0,10 e 0,20 
c. Valor p > 0,05; não rejeitar Ho 
Não se pode concluir que a média dos benefícios semanais 
em Virgínia é menor que a média nacional 
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28. 


30. 


32. 


34. 


36. 


38. 
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d. gi = 991505 = –1,66 
Rejeitar Ho se t = —1,66 
—0,88 > —1,66; não rejeitar Ho 


а. Ну и = 3.530 
Нұ и> 3.530 

b. Entre 0,005 e 0,01 

c. Rejeitar Ho 


а. Ho: р = 600 
Не р Ф 600 
b. Entre 0,20 e 0,40 
c. Não rejeitar Ho 
d. Um tamanho de amostra maior 


a. Ну p = 10.192 

Hy р £ 10.192 
b. Entre 0,02 e 0,05 
c. Rejeitar Ho 


a. Hy = 2 
Hips*2 
b. 2,2 
c. 0,52 
d. Entre 0,20 e 0,40 
e. Não rejeitar Но 
B- po 0,68 — 0,75 


at > Е 
Je = р) DIETE 0,75) 
n 300 
Valor p = 0,5000 — 0,4974 = 0,0026 
Valor p = 0,05; rejeitar Ho 
0,72 — 0,75 


м 


b. Z7 = ‚20 
i 0,75(1— 0,75) 
300 


Valor p — 0,5000 — 0,3849 — 0,1151 
Valor p > 0,05; não rejeitar Ho 
0,70 — 0,75 


а= 0028002 
t [0,75(1— 0,75) 
300 


Valor р = 0,5000 – 0,4772 = 0,0228 
Valor р = 0,05; rejeitar Ho 
0,77— 0,75 


d.z- = 0,80 
0,75(1— 0,75) 
300 


Valor p = 0,5000 + 0,2881 = 0,7881 
Valor p > 0,05; não rejeitar Но 


a. Hg; p = 0,64 
Нұр + 0,64 
b. р = 52/100 = 0,52 
puc PB x 0,52 — 0,64 2-250 
ү = p) FEET - 0,64) 
n 100 


Área — 0,4938 

Valor p — 2(0,5000 — 0,4938) — 0,0124 
c. Valor p = 0,05; rejeitar Ho 

A proporcáo difere do valor 0,64 relatado 
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а. Sim, porque р = 0,52 indica que menos pessoas acreditam 
que a marca de supermercado é tão boa quanto a marca 2 + 1,645 
conhecida nacionalmente. 
2 + 0,98 (1,02 а 2,98) 


40. a 02702 " С. zy) = 2905 = 1,96 
PU 22y (зу 
Hy p > 0,22 2+ 1,96 02.97 
Valor р = 0; rejeitar Hg 
с. Porque ajudam a avaliar а eficácia dos comerciais 


0173) - Dy = (25,2 — 22,8) — 0 


po 2. az= = 2,03 
42. Hy: p = 024 a. үй И o2 (27 (б)? 
Hy p > 0,24 т m 40 50 
Valor p = 0,0023; rejeitar Ho 
м. a. Hy p = 0,51 b. Valor p = 0,5000 -0,4788 = 0,212 
Hy p * 0,51 c. Valor p = 0,05; rejeitar Hg 
b. p = 0,58, valor p = 0,0026 4. a. ži- i = 2,4- 1,72 = 032 
c. Rejeitar H, 
ver to b. z үй + % - 96,1010), 008º од 
46. a. Hg; ш = 16 od P 40 35 
Hy p * 16 
b. 0,0286; rejeitar Ну e. 0,32 + 0,04 (0,28 a 0,36) 
Reajustar a linha de producáo 6. Valorp — 0,015 
с. 0,2186; não rejeitar Ho Rejeitar Hy; um aumento 
Continuar a operação 8. a. 108 
d. z = 2,19; rejeitar Ho b. 0.2802 
z= —1,23; não rejeitar Ho c. Não rejeitar Ho; não se pode concluir que exista uma dife- 
Sim, a mesma conclusão rena 
48. a. Но: и = 45.250 9. а. х — x, = 225 – 201 = 24 
Hy p # 45.250 b. (é + sj 
b. 0,0034 I= n m 
c. Rejeitar Ho E 1 (5) Hn (E) 
50. : = —0,93 n —lin n; lin 
Valor p entre 0,20 e 0,40 25 482\?2 
Não rejeitar Ho e r3 
= n oa = 45,8 
52. t = 2,26 n3) + m 
Valor p entre 0,01 e 0,025 19 \ 20 29 \ 30 
» Rejeitar ЕД o €. gl = 45, too25 = 2,014 
. a. Нур = 0, 2 ¿2 2 2 
Hy p > 0,50 MAS +2 2 2025 +48 291 
b. 0,64 . тоот, 20 30 
c. 0,0026; rejeitar Ho d. 24 + 2,1 (0,3 a 4,5) 
56. a. Hy p = 0,50 10a: S 3279 036-1070 g 
Hy p > 0,50 үй n VE ‚85 
b. 0,6381 n nm 35 40 
с. 0,0023; rejeitar Но sl + EH 2 
58. Hg p 2 0.90 . _ m n 
Hy p «0,90 ` dE RN рт Ei D A 
у, fã 
Valor p = 0,0808 n; —À G3 m-1 (é) 
Não rejeitar Ho , 
И . 52 8,5242 
Capítulo 10 ЕЗ + 5) 
1. а. 3-7 = 13,6-11,6 = 2 m" En 1 (827) = 657 
—[2) |82 
b. Zan = 2005 = 1,645 34 \ 35 39 \ 40 


2 2 
E£-ht 6ёвзү + p Use gl = 65 


Apéndice D 


с. gl = 65, a área na cauda superior se encontra entre 0,01 e 
0,025 
O valor p bicaudal está entre 0,02 e 0,05 

d. Valor p = 0,05; rejeitar Ho 


12. a. 3j — 2; = 22,5 – 18,6 = 3,9 milhas 


b. l= RAIO IT Ga 
NODE) 
п 1a n,— lt 


842 тү 
50 + 40, 
р 87,1 


ЫМ + (ү 
49150 39140 


3,9 + 3,3(0,6 а 7,2) 


14. 


ЕЈ 


„Не: ja - во = 0 
Hy и-и % 0 
b. 2,18 
c. Entre 0,02 e 0,05 
d. Rejeitar Hy: a média etária difere 


16. a. Hy: pı- m= 0 
Hy H- 90 
b. 38 
c. t = 1,80, gi = 25 
Valor p entre 0,025 e 0,05 
d. Rejeitar Но, concluir que a pontuação média é mais elevada 
se os pais tiverem educação de nível superior. 


18. a. Не: m— p 2 120 
Нұ tim p< 120 
b. -2,10 
Entre 0,01 e 0,025 
с. 32a 118 
d. Maior tamanho de amostra 


19. а. 1, 2,0, 0, 2 


b. d = Ха = 5/5 = 1 

«з, (20290 _ m =1 
n-i 5-1 

p= dou 1-0 

4 us aj C 

gi=n-1=4 


Valor p entre 0,025 e 0,05 
Valor p = 0,05; rejeitar Ho 


20. a.3,-1,3,5,3,0,1 
b.2 

c. 2,08 

d.2 

e. 0,07 а 3,93 
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21. Ho: иа 70 
Hy ра> 0 
а = 0,625 
зд = 1,30 
d — u4 0625-0 
т=———®=——————— 
s,/Vn 1,30/V8 
gi=n-1=7 
Valor p entre 0,10 e 0,20 
Valor p > 0,05; não rejeitar Ho 


22. 0,16 a 0,35 


24. t = 1,63 
Valor p entre 0,10 e 0,20 
Não rejeitar Ho 


D 


26. а. t = —0,60 
Valor p maior que 0,40 
Não rejeitar Ho 
b. -0,103 
с. 0,39; maior tamanho de amostra 


27. а. Ў = (30 + 45 + 36)3 = 37 
k 
SSTR = Yn; — 3? 
у=1 


= 5(30 — 37)? + 5(45 – 37 + 5(36 — 372 
= 570 


k 
b. SSE = Y (n — Ds? 
j=1 
= 46) +44) + 446,5) = 66 


SSE 66 
m-k 15-39 
c = MSIR „285 у, 
` MSE 55 , 


Da tabela F (numerador com 2 graus de liberdade e deno- 
minador 12), o valor p é menor que 0,01. 
Uma vez que o valor p — à — 0,5, rejeitamos a hipótese 
nula de que as médias das três populações sejam iguais. 

d. 


Fonte de Soma dos Graus de Média 
Variação Quadrados Liberdade Quadrática F 


Tratamentos 570 2 285 51,82 
Erro 66 12 . 55 
Total 636 i4 


28. a. MSTR = 268 
b. MSE = 92 
с. Não se pode rejeitar Ho porque o valor p é maior que 0,10 
d. 


Fonte de Soma dos Graus de Média 
Variação Quadrados Liberdade Quadrática F 


Tratamentos 536 2 268 291 
Erro 828 9 92 
Total 1.364 | 
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30. 


32. 


34. 


36. 


38. 


40. 


42. 


44. 


46. 


a. 1.200; 3 
300; 12 
F=16 
b. Rejeitar Ho porque o valor p é menor que 0,01 ` 


Fabricante | Fabricante 2 Fabricante 3 


Média amostrai 23 28 21 
Variáncia da amostra 6,67 4,67 3,33 


® = (23 + 28 + 21)/3 = 24 
k 
SSTR = Sax - 3p 
j=1 


= 403 — 24)? + 408 — 24) 
+ 41 — 242 = 104 
SSTR 104 
MSTR=" =- = 
* 
SSE = $n — Ds? 


j=1 
= 3(6,67) + 3(4,67) + 33,33) = 44,01 


52 


SSE _ 4401 
MSE = = =4, 
5 np-k 12-3 39 
MSTR 52 
| MSE A489 10,63 


Da tabela F (numerador com 2 graus de liberdade e 9 no 
denominador), o valor p é menor que 0,01 

Uma vez que o valor p = а = 0,05, rejeitamos a hipótese 
nula de que o tempo médio necessário para misturar um lote 
de matérias seja o mesmo para cada fabricante. 


Médias amostrais: 81, 79, 88; F = 4,99 
O valor p está entre 0,025 e 0,05 
Diferença significativa; Vale do Silício 
Há diferenças significativas; F = 3,70 
O valor p está entre 0,025 e 0,05 


8.934 a 11.066 


а. Hy p- № = 0 
Не k- > 0 

b. t = 0,60, gi = 57 
Valor р maior que 20 
Não rejeitar Hg 


a. 15 (ou US$ 15.000) 
b. 9,81 a 20,19 
€. 11,5% 


Médias amostrais: 58,6; 48,8; 60,1; F = 18,59 
Valor p = 0; diferença significativa 


Médias amostrais: 7,41; 6,11; 7,06; F = 9,33 
Valor р < 0,01; diferença significativa 


Capítulo 11 


2. 


түру + nb,  200(022) + 300(0,16) 
200 + 300 


a p= = 0,1840 


n tnm 


10. 


H. 


12. 


13. 
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22 — 0,1 
= 0, 016 = 1,70 


m — 0,1840) (as + ax) 


Valor p — 0,5000 — 0,4554 — 0,0446 
b. Valor p = 0,05; rejeitar Ho 


Pı = 220/400 = 0,55 p, = 192/400 = 0,48 


0,55(1— 0,55) + 0,48(1 — 0,48) 

400 400 
0,07 + 0,0691 (0,0009 a 0,1391) 
Mais de 7% dos executivos prevêem um aumento dos empre- 
gos de tempo integral; o intervalo de confiança mostra que a 
diferença pode ser de 0% a 14%. 


0,55 — 0,48 + 1954. 


a. 0,46; 0,28 

b. 0,18 

с. 0,0777 

d. 0,1023 a 0,2577; maior proporcáo de republicanos 

а. 0,803 

b. 0,849 

<. Hy pi-p520 
Нұ ру-р2<0 

d. Valor p = 0,0104 
Rejeitar Hy 

a. Hy pi -р.= 0 
Нару – рз #0 

b. 0,13 


€. 0,0404; а conclusão é de que existe diferença. 
d. Sim; atrair o grupo etário mais jovem 


Valor p — 0,0322 
Rejeitar Ho 
a. Freqüéncias esperadas: e, — 200(0,40) — 80 
e = 200(0,40) = 80 
ез = 200(0,20) = 40 
Freqüéncias reais: / = 60, f; = 120, f; = 20 
2 2 2 
‚= (60 — 80* | (120— 80? (20—40) 
80 80 40 
_ 400, 1600 , 400 
, 80 80 40 
=5+20+10=35 
Graus de liberdade: k— 1 = 2 
X? = 35 mostra que o valor p = 0 
Valor p = 0,01; rejeitar Ho 
b. Rejeitar Ho se у? > 9,210 
X? = 35; rejeitar Ho 


x27 15,33; #1 = 3 

Valor p menor que 0,005 

Rejeitar Но 

Hy Равс = 0,29; Pegs = 0,28; Pree = 025; pp = 0,18 
Ha As proporções não são 

Pasc = 0,29; рсвѕ = 0,28; puc = 0,25; Prp = 0,18 
Freqüéncias esperadas: 300(0,29) = 87, 300(0,28) = 84 


Apéndice D 


14. 


16. 


300(0,25) — 75, 300(0,18) — 54 

e; = 87, e, = 84, ез = 75, e4 = 54 

Freqüéncias reais: f, = 95, f, = 70, f, = 89, f, = 46 = 6,87 
Graus de liberdade: k- 1 = 3 

x?= 6,87, o valor p está entre 0,05 e 0,10 

Não rejeitar Ho 

x?- 29,51; #1 = 5 


Valor p = 0 
Rejeitar Ho 


a. д2= 12,21; gl = 3 

О valor р está entre 0,005 е 0,01 

A conclusão é que há uma diferença para 2003 
b. 21%, 30%, 15%, 34% 

Maior utilização do cartão de débito 


с. 51% 

18. ү2=16,31; g| = 3 
Valor p menor que 0,005 
Rejeitar Ho 


19. 


Ну; А variável coluna é independente da variável linha 
H; A variável coluna não é independente da variável linha 
Freqüéncias esperadas 


A B c 
P 28,5 39,9 45,6 
© 21,5 30,1 344 
2 _ 00 — 28,5} (44 — 39,97 , 60- 46,52 
28,5 39,9 45,6 
(30 — 2,5 | (26 30,12 (30 — 34,4)? 
21,5 30,1 34,4 


- 786 


Graus de liberdade: (2 – 1)(3 - 1) = 2 
X? — 7,86, o valor p está entre 0,01 e 0,025 


Rejeitar Hy 
20. х?= 19,77; gl = 4 
valor de p menor que 0,005 
Rejeitar Ho 


21. Hy: O tipo de passagem comprada depende do tipo de убо 


H,: O tipo de passagem comprada não independe do tipo de 


vôo 
Frequências esperadas: 
en = 35,59 е = 15,41 
ед = 150,73 £5; = 65,27 
езү = 455,68 ез = 197,32 
Frequência Егедйёпсіа 
Observada Еѕрегада 
Passagem Vôo @ (е) (fi - eMe; 
Primeira classe Doméstico 29 35,59 122 
Primeira classe Internacional 22 15,41 2,82 
Business/Executiva Doméstico 95 150,73 20,61 
Business/Executiva Internacional 121 6527 47,59 
Full-fare Doméstico 518 455,68 8,52 
Full-fare Internacional +35 197,32 19,68 
Totais 90. x2 = 10043 


22. 


26. 


28. 


30. 


32. 


34. 


36. 


38. 


42. 
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Graus de liberdade: (3 152 – 1) = 2 
X?7 100,43, valor p = 0 
Rejeitar Ho 


a. x? = 7,36; gl = 2 
О valor p está entre 0,25 e 0,05 
Rejeitar Ho 

b. Domésticos 47,2% 


„ a. y2 = 10,60; gi = 4 


O valor p está entre 0,025 e 0,05 
Rejeitar Ho; não-independente 
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b. Efeito negativo mais acentuado sobre a obtenção do diplo- 


ma à medida que as horas aumentam 


a. y? = 7,85; 21 = 3 
О valor p está entre 0,025 e 0,05 
Rejeitar Ho 

b. Produtos farmacéuticos, 98,695 


а. Hà pı -p25 0 
Нұр -р% 0 
b. 0,31; 0,26 
€. z = 2,04; valor p = 0,0414 
Rejeitar Ну, a conclusão é que há diferença 
d. 0,0475; 0,0025 a 0,0975 


z — 2,37; valor p = 0,0178 

Rejeitar Ho 

a. 0,16 

b. Ho: pi7p;—0 
Hipi-p;20 

c z = 3,49; valor p = 0 
Rejeitar Ho 

X? = 4,64; gl = 2 

О valor р está entre 0,05 е 0,10 

Não rejeitar Ho 

Х?= 42,53; gl = 4 

Valor p = 0; rejeitar Но 

х? = 23,37; 81 = 3 

Valor р = 0; rejeitar Ho 


. а. y? = 12,86; 8] = 2 


Valor p menor que 0,005 
Rejeitar Ho 

b. 66,9; 30,3; 2,9 
54,0; 42,0; 4,0 


a. 24,01; 41,16; 20,46; 8,37 

O ültimo langamento (entrada) combina 3 e 4 
b. y? = 6,17; gl = 3 

Valor p maior do que 0,10 

Não rejeitar Ho: binomial 
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Capítulo 12 


l. a. 


b. Parece haver uma relação linear entre x e y 
c. Muitas linhas retas diferentes podem ser traçadas para pro- 
ver uma aproximação linear à relação entre x € y; no item 
(d), determinaremos a equação de uma linha reta que 
“melhor” representa a relação de acordo com o critério dos 
mínimos quadrados. 
d. Somatórios necessários para calcular a inclinação e a inter- 
seção com o eixo y: 
Ex 215, Xy = 40, 5(х,— Xy, - y) = 26, 
Убх, — xy = 10 
_ Ze - X0; 9) =% 6 
- z ——-2, 
Убх; ~ %) 10 
by = 7 — b7 = 8 — (2,6)(3) = 0,2 
ў = 0,2 – 2,6х 


b 


e Ў = 02 + 26x = 0,2 + 2,64) = 10,6 


2. b.Parece haver uma relação linear entre x e y 
d. ў = 30,33 – 1,88х 


е. 19,05 
4. a. 
140 
130 
E 120 
HO 
100 


Peso 


b. Indica que pode haver uma relação linear entre altura e 
peso. . 

€. Muitas linhas retas diferentes podem ser traçadas para pro- 
ver uma aproximação linear à relação entre altura e peso; no 
item (d) determinaremos a equação de uma linha reta que 
“melhor” representa a relação de acordo com o critério dos 
mínimos quadrados. 

d. Somatórios necessários para calcular a inclinação e a inter- 
seção com o eixo y: 
Lx,=325, Уу, = 585,. E(x; — 3(y,— Y) = 110, 
Eix; — 3) = 20 
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Zo -30,—- MO 
ZXa-3 5 20 
by — y — bx = 117 — (5.565) = —240,5 
ў = 240,5 + 5,5x 
е. ў = 240,5 + 5,5(63) = 106 
А estimativa de peso é 106 libras (48 kg) 


b = 55 


6. с.ў = -10,16 + 0,18х 
e. 11,95, ou aproximadamente US$ 12.000 


8. с. ў = 490,21 + 204,24x 
d. US$ 1.307 


10. b. $ = 51,82 + 0,145x 
с. 84,4 


12. с.ў = 1.293 + 0,3165х 
d. 25.031 


14. b. ў = 28,30 – 0,0415x 
c. 26,2 


15. а. ĵ; = 0,2+2,бхуеў=8 


Xi у y; onfi MY) n-y (у—ў)? 
| 3 28 02 0,04 —5 25 
2 7 54 1,6 2,56 -! | 
3 5 80 -30 9,00 -3 9 
4 Ii 106 0,4 0,16 3 9 
5 14 132 0,8 0,64 6 36 
SSE = 12,40 SST — 80 
SSR = SST — SSE = 80 — 12,4 = 67,6 
SSR 67,6 
2 = е - 4: 

dr “ср = so — 0845 


A reta dos mínimos quadrados proporcionou um bom ajus- 
te; 84,5% da variabilidade em y foi explicada pela reta dos 
mínimos quadrados. 


с. r = V0,845 = +0,9192 


16. a. SSE = 6,3325, SST = 114,80, SSR = 108,47 
b. r? = 0,945 
с.т = —0,9721 


18. a. А equação de regressão estimada e a média da variável 
dependente: 
ў = 1790,5 + 581,lx, y = 3.650 
А soma dos quadrados dos erros e a soma total dos quadrados: 
SSE = (у, — 3)? = 85.135,14 
SSE = Z(y, – yj? = 335.000 
Desse modo, SSR = SST — SSE 
= 335.000 — 85.135,14 = 249.864,86 


SSR — 24.864,86 
b. 2 = = nam = 0,146 
SST 335.000 


A reta dos mínimos quadrados é responsável por 74,6% da 
soma total dos quadrados. 
c. r = V0,746 = +0,8637 


20. а. ў = 48,11 + 2,3325x 
b. r? = 0,82 
с. US$ 173.500 
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22. а. $ = —745,80 + 117,917x Da tabela F (1 grau de liberdade no numerador е 4 no deno- 
b. 2 = 0,7071 minador), o valor p está entre 0,025 e 0,05 
c.r = 40,84 Valor real de p — 0,0266 
Uma vez que o valor p = а, rejeitamos Hy: Bj = 0 
асман o SE m шышы mE dd 
2386 ^n-2 83 ^" Fonte de Soma dos Graus de Média 
b. s = VMSE = Y4,133 = 2,033 Variação Quadrados Liberdade Quadrática Р 
c. ZG — XP = 10 Regressão 29.864,86 | 29.864,86 11,74 
2,033 0,643 Ero 85.135,14 4 21.283,79 
s = = = 0, 
by VEG - 3i vio Total 335.000 5 
b,- 26-0 А . М 
di= TUER 4,04 28. Elas estão relacionadas; o valor p é menor que 0,01 
b, Ü 


Д 
30. Está relacionado significativamente; o valor р 6 menor que 0,01 


Da tabela / (3 graus de liberdade), a área na cauda superior 32. a. s = 2.033 
está entre 0,01 e 0,025 É 4 

? * x = 3, Убх, — 3f = 10 
O valor p está entre 0,02 e 0,05 “уаш 


E A 
Valor p real = 0,0272 усу, me 
75 п Zu 


Uma vez que o valor p = а, rejeitamos Ну: bj = 0 


SSR 1 4-93 
.MSR= = 67,6 220334. + =1, 
е i 20334 16 1,11 
_ МК 615 _ у b. $ = 02 + 2,6а = 0,2 + 2,6(4) = 10,6 
MSE 4133  " Pp E taps; 


Da tabela F (1 grau de liberdade no numerador e 3 no deno- 10,6 + 3,182(1,11) 
minador), o valor p está entre 0,025 e 0,05 10,6 £ 3,53, ou 7,07 a 14,13 


Valor p real = 0,0272 mms h 1.979 
Uma vez que o valor p = а, rejeitamos Но: B, = O X п Хб – 5) 


Fonte de Soma dos Graus de Média 1 4-3 
Variação Quadrados Liberdade Quadrática F =2,0334/1 + 5 + 10 = 2,32 
кас Ў E о 16,36 d. $ E psi 
dod т 1 ' 10,6 + 3,182(2,32) 
10,6 + 7,38, ou 3,22 a 17,98 
25 É Um 34. Intervalo de confiança: —0,4 a 4,98 
c. 0,262 Intervalo de previsão: —2,27 а 7,31 
d. Significativa; o valor p é menor que 0,01 35. а. s = 145,89, x = 32, x, — xy = 0,74 
е. Significativa; о valor р é menor que 0,01 $ = 1790,5 + 581,1x = 1790,5 + 581,1(3) 
= 3533,8 
E .135,14 2 
26. а. ? = MSE = TREE 21.283,79 ПЕЧУ 
n-2 4 . sex w 
У; =: 
s = VMSE = V21.283,79 = 145,89 a xs 
x x = 0,74 П 6-32 
NA E _ 145,89 _ m = 145,89 6 + Qa — 68,54 
A VEG; xy — V0/4 ; Pp E taps 


Ы-В, 58108-0. 343 3.533,8 +2,776668,54) | 
О» 16959 3.533,8 + 190,27, ou US$ 3.343,53 a US$ 3.724,07 


= 
Da tabela / (4 graus de liberdade), a área na cauda está entre b. за sl 1 + QV - 3 
0,01 e 0,025 m п Hum 


O valor p está entre 0,02 e 0,05 


Valor p real = 0,0266 = 145,89 h + 1 + (5-32) = 161,19 
Uma vez que o valor p = а, rejeitamos Hg: В, = O i 6 0,74 ^ 


t 


R _ 249.864, 5 
b. MSR = SSR 24980180. 249.864,86 Xp É farina. 
1 1 3.533,8 + 2,776(161,19) 
= MSR 24986486 _ 4 3.533,8 + 447,46, ou US$ 3.086,34 а US$ 3.981,26 


С MSE  21283,79 
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36. a. 80.86 
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b. 78,58 a 83,14 
€. 72,92 a 88,80 


38. 


a. US$ 5.046,67 


b. US$ 3.815,10 a US$ 6.278,24 
c. Мао fora da reta 


40. a.9 


b. $ = 200 + 721x 


c. 1,3626 


46. a. 


b. 


d. SSE = SST – SSR = 51.984,1 — 41.587,3 = 10.396,8 


MSE = 10.396,8/7 = 1.485,3 
_ МВ 415873 
MSE 1485.3 


47. a. 
= 28.0 


Da tabela F (1 grau de liberdade no numerador e 7 no deno- 

minador), o valor p é menor que 0,01 

Valor p real — 0,0011 

Uma vez que o valor p = а = 0,05, rejeitamos Hy: B, = 0 
e. ў = 20,0 + 7,21(50) = 380,5, ou US$ 380.500 


42. 
b. 30 


a. ў = 80,0 + 50,0x 


c. Significativa; o valor р é menor que 0,01 
d. US$ 680.000 


. b. Sim 


с. ў + 37,1 0,779х 

d. Significativa. Valor р = 0,003 

е. 12 = 0,434. não há um bom ajuste 
f. US$ 12,27 a US$ 22,90 

в. US$ 17,47 a US$ 39,05 


45. а, Xx, = 70, Ey, = 76, Ex; — DO, — 9) = 200, 


=x — xy = 126 
_ 5ш (0-9) _ 200 S 
bh = Ec -a = 126 1.5873 


by = $ - b ë = 15,2- (1,5873)(14) = 7,0222 
$ = – 1,02 + 1,59х 


b. 


ү fi yi- fi 
6 252 3,48 
8 1047 2247 
12 16,83 2483 
20 2,60 21,60 
30 24,78 522 


48. b. 


b. 


d. 


b. 


d. 


Com somente cinco observações é difícil de determinar se 
as hipóteses (suposições) são satisfeitas; entretanto, o dia- 
grama de dispersão unidimensional (dot plor) sugere uma 
curvatura nos resíduos, algo que indicaria que as hipóteses 
do termo de erro não são satisfeitas; o diagrama de disper- 
são desses dados também indica que a relação subjacente 
entre x e y pode ser curvilínea. 


$7 2,32 + 0,64x 
Não, a variância não parece ser idêntica para todos os valo- 
res de x 


Admitamos que x = despesas de publicidade e y = receita 
$7 29,4 1,55x 
SST = 1002, SSE = 310,28, SSR = 691,72 
MSR = ER = 691,72 
MSE = SE. 13028. 62,0554 
n-2 5 
M 
_ MSR 69,72 — 1L15 
MSE 62,0554 


Da tabela F (1 grau de liberdade no numerador e 5 no deno- 
minador), o valor p está entre 0,01 e 0,025 

Valor p real — 0,0206 

Uma vez que o valor p = @ = 0,05, concluímos que as duas 
variáveis são relacionadas 


х Yi 9; = 29,40 + 55x у — ў 
| 19 30,95 -11,95 
2 32 32,50 —0,50 
4 44 35,60 8.40 
6 40 38,70 1,30 

10 52 44,90 7,10 

l4 53 51,10 1,90 

20 54 60,40 6,40 


<› 


30 


40 50 60 

A plotagem residual nos leva a questionar a suposição de 
uma relação linear entre x e y; não obstante a relação ser 
significativa ao nível а = 0,05, seria extremamente perigo- 
so extrapolar além do intervalo dos dados. 


Sim 


50. a. = 9,26 + 0,711x 


Significativa; valor р = 0,001 


€. r? = 0,744; bom ajuste 


US$ 13,53 


Apéndice D 


52. a. Títulos com beta — 0,95 
b. Significativa; valor p — 0,029 
12 = 0,470; não há um bom ajuste 
. A Texas Instruments tem um risco maior 
$ = 10,5 + 0,953х 
. Relação significativa; valor p = 0,000 
US$ 2.874 a US$ 4.952 
Sim 


RO 


54. 


acre 


56. 


Lj 


„ Relacáo linear negativa 

. $ = 8,10 — 0,344x 

Significativa; valor p — 0,002 

‚г? = 0,711; ajuste razoavelmente bom 
5,2 a 7,6 dias 


= 


рар 


58. а. $ = 5,85 + 0,830x 
b. Significativa; valor р = 0,000 
с. 84,65 pontos 
d. 65,35 a 103,96 
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Capítulo 13 


2. а. А equação de regressão estimada é 

ў = 45,06 + 1,94x, 
Uma estimativa de y quando x, = 45 é 
ӯ = 45,06 + 1,94(45) = 132,36 

b. A equação de regressão estimada é 
ӯ = 85,22 + 4,32х, 
Uma estimativa de y quando x, = 15 é 
$ = 85,22 + 4,32(15) = 150,02 

с. А equação de regressão estimada é 
$ =-18,37+2,01x+4,7x, 
Uma estimativa de y quando x, = 45 e x, = 15 6 
ў = —18,37 + 2,01(45) + 4,74(15) = 143,18 


4. a. US$ 255.000 


5. а. А saída de dados (output) do Minitab é apresentada na 


Figura D13.5a 
b. A saída de dados do Minitab é apresentada na Figura 
D13.5b 
-- —Á— ———— M — mera с X 


Figura 013.5а , 


The regression equation is 
' Revenue = 88.6 + 1.60 TVAdv 


Predictor Coef SE Coef T p 
Constant 88.638 1.582 56.02 0.000 
TVAdv 1.6039 0.4778 3.36 0.015 i 
1 
: B i 
' S = 1.215 R-sq = 65.3% R-sq(adj) = 59.5% i 
t i 
Analysis of Variance i 
d 
К SOURCE DF SS MS Fr SP ' 
А Regression 1 16.640 16.640 11.27 0.015 
{ Residual Error 6 8.860 1.477 EE 1 
Total 7 25.500 li d 
i — mimo 5 ca ommo 
И Figura DI3.5b 
| . The regression equation is | 
Revenue = 83.2 + 2.29 TVAdv + 1.30 NewsAdv і 
1 
Predictor Coef SE Coef T P i 
y Constant 83.230 1.574 52.88 0.000 ‚ 
: TVAdv 2.2902 0.3041 7.53 0.001 ^ 
Н NewsAdv 1.3010 0.3207 4.06 0.010 
| 1 
t S = 0.6426 R-sq = 91.9% R-sq(adj) = 88.7% А 
М - Н 
1 
Analysis of Variance i 
в 
SOURCE DF SS MS E p 
' Regression 2 23.435 11.718 28.38 0.002 
| Residual Error 5 2.065 0.413 | | 
Total 7 25.500 
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€. É 1,60 no item (a) e 2,29 no item (b); no item (a) o coefi- 
ciente é uma estimativa da alteração da receita em razão da 
mudança de uma unidade nos gastos com propaganda de 
televisão; no item (b), representa uma estimativa da altera- 
ção-da receita em virtude da mudança de uma unidade nos 
gastos com propaganda de televisão quando a quantidade da 
propaganda em jornais se mantém constante. 
d. Receita = 83,2 + 2,29(3,5) + 1,30(1,8) = 93,56, ou US$ 
93.560 
6. a. PPG = 0,354 + 0,000888 HR 
b. PPG = 0,865 — 0,0837 MRR 
c. PPG = 0,709 + 0,00140 HR — 0,103 MMR 
d. 54,9% 
8. a. Retorno (rentabilidade) = 247 — 32,8 Segurança + 34,6 taxa 
de despesa (ExpRatio) 
b. 70,2 


10. a. РРС = -1,22 + 3,96 FG% 
b. Um aumento de 0,01 na porcentagem de field goals (ЕС%) 
aumentará a PPG em aproximadamente 0,04 
c. PPG = -1,23 + 4,82 FG% — 2,59 %3Pt Adv + 0,344 


Turnover Adv 
e. 0,6432 
SSR 140522 — 
12. а. = SST ^ 151829 ^ 0,926 


-1 
2 = 1 (1 Е) 
b. Rá a P EI 
10 
FUE 


€. Sim; depois de ajustar o número de variáveis independentes 
no modelo, vemos que 90,5% da variabilidade em y foi a 


= 0,905 


responsável. 
14. а. 0,75 
b. 0,68 
SSR _ 23,435 
2 =D = 
15. a. R SST ^ 255 0,919 


-1 
R =1- 1 -RB 
7 lc EY 


8-1 
—71-(1—0919-——— — 
‹ ) 8-2-1 
b. A análise де regressáo mültipla 6 preferível porque tanto R? e R2 
mostram que uma porcentagem aumentada da variabilidade de y é 
explicada quando ambas as variáveis independentes sáo usadas. 


— 0,887 


16. a. Não, R2 = 0,153 
b. Melhor ajuste com regressão múltipla. 


18. a. К? = 0,564, Rj = 0,511 
b. O ajuste não é muito bom 


19. a. MSR = SSR: = езт = 3108,188 
р 


SSE 507,75 


МЅЕ = = = ——————— 
п-р-1 10-2 -1 


= 72,536 
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..MSR  3108,188 
MSE 72,536 

Da tabela F (2 graus de liberdade no numerador e 7 no 

denominador), o valor p é menor que 0,01 

Uma vez que o valor p = а, o modelo global é significativo 


b. F = 42,85 


b, 0,5906 
=— = = 7,26 
CIUS, 0,0813 
O valor p é menor que 0,01 
Uma vez que o valor p = а, 8, é significativa. 
b, 0,4980 
.1=— = = 8,78 
4 S, 0,0567 


O valor p é menor que 0,01 
Uma vez que o valor p = а, 8,6 significativa 


20. a. Significativa; valor p — 0,000 
b. Significativa; valor p — 0,000 
c. Significativa; valor p — 0,002 


22. a. SSE = 4.000, s2 = 571,43, MSR = 6.000 
b. Significativa; o valor p é menor que 0,01 


a.F = 28,38 
Valor p — 0,002 
Uma vez que o valor p — a, há uma relacáo significativa 
b. t = 7,53 
Valor р = 0,001 
Uma vez que о valor p = о, , é significativa e x, não deve 
ser eliminado do modelo 
€. t = 4,06 
Valor p — 0,10 
Uma vez que o valor p = a, 3, é significativa e x, não deve 
ser eliminado do modelo 


23 


Ё 


a. Rejeitar Ho: В, = B; = 0; valor p = 0,000 
b. HR: Rejeitar Ну; B, = 0; valor p = 0,000 
MMR: Rejeitar Ho: B; = 0; valor p = 0,000 


26. a. Significativa; valor p — 0,000 
b. Todas as variáveis independentes sáo significativas 


28. a. Com o Minitab, o intervalo de confiança de 95% é 132,16 a 
154,15 
b. Com o Minitab, o intervalo de previsão de 95% é 111,15 а 
175,17 
29. a. Veja a saída de dados do Minitab na Figura D13.5b 
$ = 83230 + 2,2902(3,5) + 1,3010(1,8) = 93,588, ou 
US$ 93.588 
b. Resultados do Minitab: 92,840 a 94,335, ou US$ 92.840 a 
US$ 94.335 
c. Resultados do Minitab: 91,774 a 95.401, ou US$ 91.774 a 
05$ 95.401 


30. a. 58,37% a 75,03% 
b. 35,24% a 90,59% 
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32. а. Ебу) = Bo+ By + by, 40. b. 67,39 
em que a; = f se corresponder ao nível 1 42. a. $ = — 1,41 + 0,0235, + 0,004867 


34. 


36. 


1 se corresponder ao nível 2 

b. EO) = Bo+ Bx + BO) = Bot Bm 

с. EO) = Bo+ Bixi + 80 = Bo+ Bixi + В, 

d. B, = Ебу | nível 2) — E(y | nível 1) 
В, é a alteração em E(y) para uma mudança de 1 unidade em 
x, ao manter-se x; constante 


а. US$ 15.300, porque 8; = 15,3 

b. ? = 10,1 2 422) + 6,8(8) + 15,3(0) = 56,1 
Previsão de vendas: US$ US$ 56.100 

e.) = 10,1 — 4,2(1) + 6,8(3) + 15,3(1) = 41,6 
Previsão de vendas: US$ 41.600 


a. ў = 1,86 + 0,291 Meses + 1,10 Tipo — 0,609 Técnico 
b. Significativa; valor p — 0,002 
с. A adição do técnico não é significativa; valor p = 0,167 


. 3.9 = -91,8 + 1,08 Idade + 252 Pressão Arterial + 8,74 


Fumante 

b. Significativo; valor p = 0,01 

c. O intervalo de previsão de 95% é 21,35 a 47,18, ou uma pro- 
babilidade de 0,2135 a 0,4718; parar de fumar e iniciar 
algum tipo de tratamento para reduzir o nível de pressão 
arterial 


44. 


46. 


b. Significativa 
с, К? = 0,937; Ri = 9,19; bom ajuste 
d. Ambas significativas 


a. Pontuação = 50,6 + 1,56 Resistência à Recessão 

b.r2 = 0, 431; não há um bom ajuste 

с. Pontuação = 33,5 + 1,90 Resistência à Recessão + 2,61 
Acessibilidade 
Significativa 
R$ = 0,784; ajuste muito melhor 

a. MPG Cidade = 24,1 — 2,10 Cilindradas 
Significativa; valor p = 0,000 

b. MPG Cidade = 26,4 — 2,44 Cilindradas — 1,20 ТАЕ 

c. Significativa; valor p = 0,016 

d. MPG Cidade = 33,3 — 4,15 Cilindradas — 1,24 Tração4 + 
2,16 OitoCil 

e. Significativa global e individualmente 


A 
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Este livro proporciona uma efetiva introdução conceitual à estatística e 
suas aplicações, utilizando desenvolvimento metodológico fundamen- 
tado e notação adequada a cada tópico tratado. O único requisito ma- 
temático para seu estudo é o conhecimento da algebra. 


Orientado à análise de dados e de metodologia estatisõica. principal 
tônica do conteúdo, organiza-se em conjuntos de aplicações com 
discussão e desenvolvimento de cada técnica e resultados que fome- 
cem subsídios para a solução dos problemas. Estatistica Aplicada а 
Administração e Economia traz também uma bibsograsia revista е 
atualizada como apêndice. 


A obra apresenta ainda diversos exemplos, exercicios e estudos de 
caso e, na página do livro, no site da Thomson, aproximadamente 160 
conjuntos de dados estão disponíveis para alunos e professores, tanto 
em formato Minitab como em formato Excel. 


Aplicações 


Livro-texto para a disciplina estatística nos cursos de Administração e 
Economia e para todos aqueles que utilizam ferramentas estatisticas 
nas áreas de Contabilidade, Finanças e Marketing, entre outas. 
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